← 返回目录


我们应如何评判研究?

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

7 👍 / 0 💬

批评研究与统计之所以困难,部分原因在于可提出的批评角度实在太多,这反而让任何单一的批评都显得无关紧要。一条好的批评,其价值在于它是否有可能成为一种「能带来实质性改变的差异」,从而影响我们的最终行动。

摘要

对于科学与统计研究,我们必须秉持批判的眼光去审视,方能判断其论断的可信度。可复现性危机与元科学的崛起已经揭示:大量研究不仅质量堪忧,其结论也往往是错误的。

然而,任何一项研究都可能因无数潜在问题而受到指摘,与那遥不可及的理想相去甚远。这使得我们难以分辨何种批评至关重要,而这些批评又可能沦为纯粹的空谈。我们该如何从纷繁的意见中,甄别出致命的缺陷、善意的提醒和无谓的指摘?

为此,我提出一个务实的标准:一项批评之所以重要,关键在于若加以修正,它能在多大程度上改变研究结果,以及这一改变又将在多大程度上影响我们的决策或行动。简言之,它是否构成了「一个足以带来改变的差异」。

这便是为何研究造假、因果推断谬误,或那些导致结果被严重高估的偏见,都具有普遍的重要性——因为一个所谓的「因果」效应,如果真相是毫无效果或被极大夸大,那几乎所有基于该研究的决策都将被颠覆。与此相对,其他同样常见的问题,如测量误差或分布假设,通常并那么重要,因为它们对结论的改变甚微,进而对决策的影响也微乎其微。

如果我们能时常反思一项批评是否会带来如此根本性的改变,那么我们就能更清晰地分辨,哪些是切中要害的批评,而哪些只是夸夸其谈,反而阻碍了对研究的有效评估。


学习统计学无疑是件好事。如果你想广泛阅读并理解科学论文,那没有什么比学习统计学更有效的了。因为当今世界,万事万物都与统计问题息息相关,并依赖于日渐强大的统计方法和海量数据集——上至机器学习这类光鲜前沿的领域,下至遗传学家挖掘数百万人的生物样本库这类基础工作。若你对统计学缺乏基本了解,你将日益被科学技术的浪潮抛在身后,无法就其社会应用展开有意义的讨论。因此,只要你对这些话题稍有兴趣,就必须打下坚实的统计学基础——我本想这样断言。但问题在于……学习统计学可能暗藏风险。

1 统计学的「谬误之谷」

学习统计学,就像初涉形式逻辑或认知偏见理论,恰如亚历山大·蒲柏所言:「一知半解,乃是危途 / 皮埃里亚清泉,宜当深饮,不宜浅尝 / 浅尝辄令头脑发昏,/ 痛饮方使神智清醒。」

当你初学形式逻辑和谬误理论时,便会迫不及待地挥舞这把崭新的锤子,到处玩「谬误对对碰」的游戏(恕我在此混合使用隐喻):「哈!先生,您这犯了人身攻击的谬误,此乃逻辑上不成立的反驳。」然而问题在于,许多所谓的「谬误」在归纳逻辑中完全站得住脚:例如,人身攻击往往与议题高度相关(比如当事人受贿)。若一味固守形式逻辑的藩篱,充其量是浪费时间,最坏的情况则是沦为一种工具,通过选择性地运用严谨规则来自欺欺人。

同样,认知偏见理论虽易于滥用,却难以善用(因为在某些情境下,偏见或许是颇具价值的先验判断;而在那些常见的有害情境中,我们通常早已习得更佳的应对之道)。我们总是能轻而易举地发现,别人是多么可悲地陷入了确认偏见的泥潭。

1.1 包罗万象,巨细无遗

在统计学领域,稍加阅读和自学,你很快就会发现一项研究在统计学上可能出错的万千方式。正如 Ioannidis、Gelman 等学者、可复现性危机以及无数科学发现彻底崩塌的案例所揭示的那样,无论你变得多么富有怀疑精神,可能都还远远不够,因为现实中充斥着大量漏洞百出的研究。以下便是一些潜在的问题,此处不分主次,随意罗列:

以上问题,有些是致命的,一旦出现,研究便毫无价值,甚至可以说,若这些研究人员从未发表过文章,世界反倒会更美好。另一些问题虽也严重,但尚可容忍,受其困扰的研究仍有其参考价值,或许已是当前条件下所能做到的极致。还有一些则通常是细枝末节,几乎无关大局,若将它们当作「批评」提出,反而可能误导他人,暗示这些小瑕疵值得商榷。更多的,则完全取决于具体情境,其影响可能天差地别,从瞬间致命到微不足道。

但究竟该如何区分呢?你或许能猜到其中几项的严重程度,但若说你对我所列的每一项都了然于心,并能就其重要性给出充分的论证,那我倒要感到惊讶了,因为连我自己都做不到,而且我怀疑世上鲜有人能做到。更无人能告诉你每一项到底有多重要。我们似乎只能凭经验摸索,年复一年地观察各种发现在元分析中被成功复现或效应减弱,抑或被彻底推翻,从而逐渐培养出对问题重要性的直觉。诚然,市面上有不少核查清单和专业手册checklists可供参阅,它们至少具备清单的优点——能系统性地提醒我们该检查哪些方面,减少我们凭主观偏好选择性批判的冲动。我推荐使用这些工具,但它们并非万全之策。(在某些情况下,它们甚至会推荐一些相当糟糕的做法,而且没有一份清单称得上是完备的。)

无怪乎统计批评有时让人感觉像一场残酷的肉搏,又好似在学习统计显著性检验:面对一长串缺乏内在逻辑的特例检验,拼凑出一本满是武断公式和仪式的「食谱」,其主要功用,不过是为了进行「中产阶级式的轻蔑」

久而久之,你学到的东西足以让你对任何研究抛出一连串的批评,无论其是否切题,从而进行所谓的「伪分析」Jackson。这种做法贬低了批评的价值(毕竟,不可能所有研究都同样一文不值),并带来了与滥用形式逻辑或认知偏见理论同样的风险——最终只是将知识武器化,费尽心机却让自己错得更加离谱,并学会用更精巧的言辞来捍卫自己的谬误。(多年来,我曾批评过许多研究。尽管我对其中不少研究的批评,其尖锐程度远不及它们本应受到的审判,且事后也证明我的观点是对的,但我无法诚实地宣称自己总是正确,或从未有过偶尔的夸大其词、画蛇添足。)

2 中肯却非定论

那么,我们所说的统计批评,其内涵究竟是什么?何种统计异议称得上是良策,何种又算作劣评?

2.1 坏的批评

在此,我想说:一个轮子,即便能转动,但若不能带动其他任何部件,那它就不是这套机械的一部分。
——路德维希·维特根斯坦,§271,《哲学研究

一项批评的好坏,绝不能仅凭其是否乏味、是否让人不屑一顾来判断。试想在 2000 至 2010 年间,若有人在每次遗传学讨论中都反复叨念统计功效与多基因性,宣称所有那些激动人心的新候选基因和基因-环境交互作用的研究结果都是一派胡言,整个文献领域都是垃圾——此人言论想必令人极度不快,很快就会让人心生厌烦,但他的观点却被证明是完全正确的。(同样的情况也适用于营养学研究、社会心理学研究,等等……)尽管听着又一个人高喊「相关不等于因果」或「呵,那是在老鼠身上!」,或许会让人觉得聒噪,但不幸的是,对于许多研究而言,这便是对其唯一应该做出的评价,无论我们听得多么腻烦。

一项批评的好坏,也不能仅仅因为它指出了某个假设被违背(或未经证实、无法证实),或现实世界的某个方面被模型忽略。因为所有的统计模型本质上都是高度抽象、极其粗略的简化。我们永远可以从任何分析中挑出毛病:正态性假设不当、某段自相关未被建模、某个非线性项被遗漏、某些先验信息未被采纳,或是数据在某方面存在缺失。清单、预注册等方法固然能显著提升研究质量,却永远无法根除这一问题。除非是对计算机模拟进行同义反复式的分析,否则完美无瑕的统计分析既不曾存在,也永远不会存在。即便存在,它也会复杂到无人能懂(这本身也是一种批评)。我们所有的模型都是错的,但其中一些或许有用,而一项好的统计分析,仅仅是「足够好」而已。

一项批评的好坏,同样不能取决于结果是否「可复现」。可复现性所能告诉我们的,无非是若用同样方法收集更多数据,结果将保持不变。一个无法复现的结果,其价值充其量是存疑的(它很可能从一开始就是虚假的^[一个无法复现的结果,会将原始研究置于一个尴尬的三难困境中:要么原始结果是伪结果(这是先验上最可能的情况);要么复现者操作失误或运气不佳(但这很难成立,因为多数复现研究的功效充足且遵循了原始方案,所以——汝之肯定前件,即吾之否定后件——反倒更容易论证是原始研究运气不佳);要么该研究的论断本身极其脆弱且高度依赖特定情境,以致于无法复现只是所谓的「异质性」(但若是如此,当一个结果在别处是否存在都如同抛硬币一般,又怎能指望任何人对其抱有实质性的信任,或据此采取行动呢?)。]),而一个可复现的结果,也绝非质量的保证。你或许拥有一套稳定产出「无用输入,无用输出(GIGO)」的流程,但可复现的垃圾依然是垃圾。收集更多数据,可能仅仅意味着更精确地估算出了流程中的系统误差和偏见而已。(无论你能找出多少篇已发表的论文声称顺势疗法有效,它就是无效的。)

当然,这也与 p 值基本无关,无论是在单项研究中还是在其复现研究中(因为任何有价值的东西都与 p 值无关)。如果我们修正一个错误,使一个具体的 p 值从 p=0.05 变成了 p=0.06,又能如何?(「想必上帝垂爱 0.06 的程度,并不会比 0.05 逊色多少……」)后验概率虽有其意义和重要性,但同样不能作为评判标准:一项研究中,某个参数大于零的后验概率是 95% 而非 94%,这很重要吗?大于 99% 呢?大于 50% 呢?如果一项批评在修正后,将后验概率从 99% 降至 90%,这便是我们所说的重要批评吗?恐怕(咳)未必。

它也与效应量的增减无关。如果一项研究因某些错误,使其报告的效应量是应有值的两倍,这或许是致命的缺陷,也可能无关痛痒。也许原本的不确定性就很大,以至于没人会把点估计值当真;又或者,人人都明白存在错误的可能,并视其点估计值为一个上限。再或者,这个效应本身是如此巨大,即便是高估了 10 倍也无伤大雅。

它通常也与预测能力无关(不论是用 R² 还是 AUC 等指标来量化)。纯粹的预测只是研究中一小部分的目标(当然,如果有人能证明某个特定选择导致了更低的预测分数,那会是一项有力的批评)。在许多情况下,最好的模型预测能力并不突出,而一个模型预测能力强,反倒是一个危险信号。

2.2 好的批评

统计学家已不再是人们期望能从一堆废料中炼出黄金的炼金术士。他更像一位化学家,能够精确评鉴原料的价值几何,并从中提取出等量的价值,分毫不差。如此一来,若因其结果精确而赞誉,或因其不精确而指摘,都是愚蠢的。倘若他技艺精湛,其结果的价值便完全取决于所用材料的价值。材料中包含多少信息,他便提取多少,仅此而已。他的职责,不过是呈现材料之所含……在劣质数据上进行极其繁重的计算,或许能将产出率从 95% 提升至 100%——这 5% 的增益,对于微不足道的总量而言,可能无甚意义。而对数据收集流程或实验设计进行一次专业的审视和革新,往往能以同等的时间和人力成本,将产出率提升十倍乃至十二倍。
……实验尘埃落定之后再请教统计学家,往往无异于请他来做一次事后验尸。他或许能告诉你,这场实验的死因。
——R. A. Fisher「在第一次印度统计大会上的主席致辞」,1938 年

那么,何种批评才称得上是好的批评?

譬如,若一份研究草稿显示,其论断基于某个变量的统计显著效应,但最终发表的版本却对该变量避而不谈,转而讨论另一个不同的变量,这便引人深思。若发现某研究的作者们从研究结果的受益公司处收取了数百万美元,人们对该结果的信心便会大打折扣。若某项相关性在同一家庭的兄弟姐妹间、甚至在同卵双胞胎间进行比较时便荡然无存,或是在其他数据集、其他国家中并不存在,那么无论它在单一数据集中显得多么稳固,都足以令人警惕。若一个花哨的新机器学习模型号称性能比当前最优(SOTA)模型高出 2%,结果却被发现未能正确使用留出样本,实际表现并无差异,机器学习研究者们的热情无疑会大减。若有人证明一项随机对照试验(RCT)得出的效应方向与相关性分析的结果截然相反,大多数人都会认为这是个重大问题。若一种新型抗癌药物在最新试验中被吹捧为与常规化疗同样有效且副作用更少,但人们发现,两者的疗效都是与「零效应」的原假设进行比较,且新药的点估计值低于常规化疗,患者们还会愿意使用它吗?若一项心理学实验在使用被动对照组与主动对照组时得出不同结果,或一项外科手术的成败取决于临床试验是否采用盲法,这显然是个问题。而如果数据完全是捏造的,那当然更值得揭露。

依据前述的某些传统标准,这些批评的性质可谓天差地别。那么,究竟是什么共同点,使它们都成为了好的批评?

3 信念指引行动

结果的价值,仅在于其与真相的可能差异,对于实验目的而言已小到无足轻重。至于风险与回报的权衡,则取决于:
1. 实验本身的性质所能允许的精确度,
2. 以及所涉议题的利害关系之轻重。
——斯튜登特1904 年^[引自皮尔逊 1939 年]


此外,经济学的视角(若非因贵族或清教徒式的禁忌而被摒弃)似乎是唯一能清晰辨别不确定性逻辑(即概率论)中何为矛盾、何为自洽的工具。这正是瓦尔德「可采纳性」概念所给予我们的根本启示……概率论与决策论,不过是研究同一主题——不确定性——的两种表述(理论与实践)而已。
——布鲁诺·德·菲内蒂「对萨维奇<重读R. A. 费雪>一文的评论」,1976 年

但我认为,所有这些好的批评,其共通之处在于一个决策论的基石,它不仅统一了所有批评(也同样能统一统计学教学法):

一项统计批评的重要性,取决于它在多大程度上可能改变基于该研究的决策。

我坚信,p 值不是后验概率,后验概率不是效应量,效应量不是效用,效用不是利润,利润更不是决策。泾渭分明的判断源于决策。归根结底,一切分析都是决策分析:我们的信念与分析可以是连续变化的,但我们的行动却是离散抉择的。

当我们评判一项研究时,我们所摸索探求的标准,最终必然落脚于现实世界的行动与决策。这个标准本质上是情境依赖的,不容许任何一刀切的界线,并取决于研究的用途与动机,其根基在于何为正确的行事之道。^[有趣的是,「概率」一词的中世纪起源本身就内蕴着决策的考量,其核心问题是:相信什么、依据什么行动,才是合乎道德的。而概率论的数学根源同样务实,源于赌博。当然,拉普拉斯在他早期的贝叶斯主义中也持有类似观点(例如拉普拉斯论证人证言估算土星质量)。直到后来,如布尔或费雪等统计思想家,才试图摒弃这种务实的解释,转而寻求如极限频率这类更纯粹的定义。]

一个好的批评,与结果是否达到某个武断的「显著性」水平无关,与研究是否「功效充足」无关,与元分析中估算异质性所需的特定 k 值无关,甚至与任何特定的后验概率或效应量阈值都无关。它也与是否违背某个特定假设无关,除非违背该假设导致模型不再「够用」,从而引向错误的选择。它与可复现性有松散的关联(因为一个结果若在未来需要采取行动的情境中无法复现,那它对规划便毫无用处),但并不由其定义(因为一个结果完全可能稳定复现,却依然毫无价值)。

要理解诸多批评的重要性,只需扪心自问:这项研究究竟意在为何?它将如何影响后续的决策?这样一来,许多问题便豁然开朗。我们不必非得走完一套从原始数据、贝叶斯分析,到效用函数、因果模型的完整决策分析流程(尽管这样做大有裨益,在某些极端情况下甚至是必要的)。通常,非正式的思量便是一个很好的起点,因为我们凭直觉就能预见到它对后续决策的影响。

我认为,即便面对那些应用前景尚不明朗的「纯」研究,我们也能有效地运用这一标准。关于认识论、科学方法论,以及何种实践能通往可靠知识,我们已积累了丰富的认知。(当人们以数论催生密码学为例,为纯研究的历史贡献辩护时,这一论证本身就暗示了其衍生应用并那么不可预测,这恰恰是一种成功的务实辩护!我们演化出的好奇心卓有成效,这绝非偶然。)

例如,即便我们不为某项研究预设特定目的,也能明白为何伪造数据是最恶劣的行径:因为没有任何决策能因采纳伪造数据而变得更好。正如费曼所言:「一项成功的技术,必须让现实凌驾于公关之上,因为自然无法被愚弄。」 许多假设或捷径在某些情境下或能奏效,但与现实脱节的伪造数据,却无一例外地只会坏事。即便伪造的数据被处心积虑地设计,以求精准复刻我们对现实的最佳理解^[这种情况通常不会发生,这也是为何像 Diederik Stapel 这样的造假者,会因其「好到不真实」的结果、过度取整或过于平滑的数据,甚至有时仅仅是算术错误而被识破!(Stroebe 2019 顺便指出,虽然 Stapel 的单个效应在其他研究者看来似乎可信,但整合来看,其效应量大得离谱,在元分析中便显现出异常——源自欧洲而非美国的启动效应研究,其平均效应竟大得蹊跷。) ],它也会因夸大证据强度而损害决策,导致过度自信和探索不足。

粗心的数据收集和测量误差亦是同理。在通过比对 DNA 数据库中的奇怪条目偶然发现 CRISPR 之前,微生物学家们对此一无所知。这正是纯研究能带来巨大突破的绝佳例证。但试问,如果 DNA 数据库残缺不全、充斥着错误标记或被污染的样本,抑或测序过程草率马虎,序列数据纯属一堆随机垃圾,你又如何能从中发现任何东西?如果你研究的是「癌细胞」,结果它们却是被贴错标签的肝细胞系,这又如何能增进我们对癌症的认知?

再来思考安慰剂效应。如果你得知某项研究的结果完全由安慰剂效应驱动,一旦采用盲法,效应便会消失,我可以断言——无论涉及何种领域、何种主题——你几乎总会大失所望。如果一项研究仅仅测量了安慰剂效应(具体而言,是实验者期望或受试者预期效应),这是毁灭性的打击。因为我们早已知道安慰剂效应普遍存在(因此再次证明它并无新意),其作用机制是狭隘的心理通路,会随时间消退,且不影响死亡率等硬性终点。然而,它却并未作用于那些被安慰剂偏倚的研究表面上似乎正在操纵的无数因果机制(而对这些机制的操纵,本可对即时应用和理论构建大有裨益)。举例而言,如果心脏支架除了通过安慰剂效应外,并不能真正缓解胸痛,我们为何还要使用它?诚然,在某些情况下,得知结果仅为安慰剂效应后我们或许无动于衷(例如慢性疼痛治疗?或轻度流感?),但这样的例外寥寥无几。

那么不可复现性呢?对心理学「可复现性危机」最简单的解释是:大多数已发表的结果并非真实存在,不过是随机噪音被通过 p 值操纵的伎俩发表出来罢了。而辩护者们给出的最善意的解读则是:这些效应确曾真实,但它们要么效应量微小,要么高度依赖于具体情境的精确细节(如实验地点、问卷纸张颜色、实验员等),以至于即便与原作者合作,也无法保证复现。这再次构成了一个三难困境,从决策论的视角看,其破坏性尤为巨大:

  1. 要么结果是虚假的(对决策毫无用处);
  2. 要么效应量远小于报告值(因此在任何应用或理论构建中都大打折扣);
  3. 要么效应极其脆弱,在任何未来的情境中,几乎同样可能呈现为其他效应,甚至方向相反,导致其平均效应趋近于零(因此毫无用处)。

决策先于信念。我们的本体论与认识论,源于我们的决策理论,而非相反。这在逻辑上看似本末倒置,但作为在不确定性中思考与行动的、演化而来的具身存在,这便是我们的处境:我们就像奥托·纽拉特所比喻的木筏上的水手——我们无法「抽身而出」,从零开始,基于逻辑形而上学构建全部的信念与知识。相反,我们只能立足于木筏之上,一片片地检查并修复它。对于怀疑论者(如普兰丁格),自然主义的回应是:我们的信念并非因其源于经验、演化或试错而不可靠;恰恰相反,它们之所以可靠,正是因为它们在演化中被逐步塑造,以求在实践中做出正确的决策。并且,受演化法则的约束,我们发展出了关于世界的可靠知识和科学方法。(多伊奇-华莱士试图将量子力学多世界诠释中的玻恩定则建立在决策理论之上,便是这种逻辑倒转的一个范例。更早之前,如斯튜登特弗兰克·P·拉姆齐亚伯拉罕·瓦尔德伦纳德·J·萨维奇霍华德·雷法罗伯特·施莱弗等统计学家已经证明,大部分统计学可以奠基于决策,而非相反。主观概率学派,以及诸如荷兰赌这类强制一致性的工具,都为此提供了明证。)

3.1 基于决策论的批评

决策分析的威力,更多地体现在其威慑力,而非执行本身。
——安德鲁·盖尔曼,2019 年


一个不错的经验法则是:「如果我给这个数字末尾加个零,含有它的这个句子对我的意义会有所不同吗?」如果答案是「否」,那么这个数字或许从一开始就不该出现在句子里。
——兰德尔·门罗

现在,让我们用决策论的视角,重新审视一些之前提到的批评:

这套定义并非万灵药,因为在很多时候,我们既不清楚研究会影响哪些后续决策,更难以量化一项批评会对这些决策产生多大影响。但它提供了一个清晰的起点,帮助我们辨别哪些批评是(或应该是)重要的(在这一点上,元分析对于确定特定缺陷导致的平均效应偏差等问题尤其有用),而哪些则值得怀疑、纯属吹毛求疵,表明你是在绞尽脑汁地找茬。如果你无法至少有理有据地解释,一项(或一组)批评何以可能导致截然相反的结论或行动,那么,这些批评或许最好还是不说为妙。

4 外部链接

5 附录

6 脚注

[checklists]据我所知,主要有两大类:汇报清单与质量评估清单(此外,还有各专业团体发布的指南/建议,例如美国心理学会(APA)基于 JARS 制定的手册,或美国教育研究协会(AERA)标准)。

一些汇报清单

一些质量评估量表:

[Jackson]正如杰克逊在一篇针对类似著作的评论中指出的,那些用于反驳遗传力或智商的论证,恰恰是糟糕研究批评的范例,它们将完美当作「更好」的敌人,并选择性地要求严谨:

毫无疑问,在此领域,如同许多依赖实地研究的领域一样,对外部变量的精确控制远未达到完美。例如,在对分开抚养的双胞胎的研究中,研究者必须承认,将双胞胎随机分配到不同寄养家庭的理想状态难以完全实现,找到在所有变量上都完美匹配的比较组或控制组也十分困难。若非要完全摒弃社会科学中的实地数据,我们别无选择,只能采取一种变通的方法,在权衡那些公认有瑕疵的数据中,通过优势证据来寻求对假说的支持。大多数这样做的人,都找到了支持智商遗传力的证据。而卡明却只看到了证据中的瑕疵……以现有数据来看,倘若作者以同等的热情去评估「这些处理毫无影响」的原假设,他恐怕会发现自己根本无法不拒绝它。

7 反向链接

8 相似链接

9 参考文献


Thoughts Memo 汉化组译制
感谢主要译者 gemini-2.5-pro、校对 Jarrett Ye
原文:How Should We Critique Research? · Gwern.net
作者:Gwern Branwen

专栏:Jarrett Ye的文章


← 返回目录