← 返回目录


提防只看一项研究的人

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

51 👍 / 5 💬

一、提防单一研究:以医学为例

中世纪神学家 Aquinas 有一句名言:「提防只念一本书的人」。在此基础上,我想补充一句:提防只看一项研究的人。

让我们以医学研究为例来阐明这个观点。假设有一种药物对某种疾病具有轻微的治疗作用。几年后,多个研究团队分别对这种药物进行了各种不同的研究。理想情况下,这些研究的平均结果应该能反映出真相——即该药物确实效果轻微。

然而,由于实验中不可避免的误差以及研究质量的参差不齐,研究结果中难免会出现随机波动。最终,我们可能会看到类似钟形曲线的结果分布。曲线的峰值会落在「轻微有效」这一点上,但两侧也会分布着一些其他结果。大致如下图所示:

从图中我们可以看出,曲线的峰值位于中性点的略右方——也就是轻微有效的位置。约有 15 项研究得出了这个准确的结论。

然而,也有约 5 项研究得出这种药物效果显著的结论,另有 5 项研究完全背离预期,认为这种药物实际上有害。甚至还有 1 项研究发现这种药物极其糟糕,可能存在严重危险。

这还是在我们考虑欺诈或统计操作不当之前的情况。我所说的是,仅仅因为实验设计的正常变种,就会出现这样的结果。即使我们提高实验的严谨性,钟形曲线可能会在水平方向上变得扁平,但仍然会呈现钟形分布。

实际情况可能更加复杂,因为这里假设所有人都在研究完全相同的问题。

假设图表的标题是「该药物治疗双相情感障碍的有效性」。

但这种药物在治疗双相 I 型障碍时可能比治疗双相 II 型更有效(例如 Depakote 丙戊酸钠)。

或者,这种药物对双相躁狂可能非常有效,但对双相抑郁的效果可能差很多(再次以丙戊酸钠为例)。

又或者,这种药物可能是一种很好的急性抗躁狂剂,但在长期维持治疗方面效果较差(我们继续以丙戊酸钠为例)。

如果你有一张标题为「丙戊酸钠治疗双相情感障碍的有效性」的图表,横轴从「效果极差」到「效果极佳」,纵轴是研究数量——而你把所有的研究——包括维持治疗、躁狂期、抑郁期、双相I型、双相II型——都放在这张图表上,那么你最终会得到从「效果极差」到「效果极佳」的全部范围,这还是在考虑数据噪音之前,更不用说研究偏见和实验设计缺陷了。

这就是为什么你应该提防只看一项研究的人。

如果你浏览那些较为高端的替代医学网站,他们不会直白地宣称「科学研究不过是西方医学和大型制药公司阴谋的产物,是一种充满逻辑中心主义和男权中心主义的工具。」

相反,他们会这样说:「医学科学已经证实了这种药物的危害性,但那些无知的医生仍在不顾一切地将它推销给你。瞧,这里有一项来自权威机构的研究,明确证明这种药物不仅无效,而且有害。」

事实上,这样的研究的确存在,其作者也确实是声名显赫的科学家,研究本身的严谨程度和质量可能也不亚于任何其他研究。

于是,许多被灌输了某些事物有证据而其他则没有这种观念的人会惊呼:我靠,他们说的果然没错!

另一方面,你的医生当然不会去浏览那些不靠谱的替代医学网站。她会仔细研究所有相关文献,并从中得出谨慎而明智的结论…

哈,开个玩笑罢了。实际上,她正在参加一个由制药公司赞助的、在高档餐厅举办的午宴。该公司向她保证,他们绝不会利用这种机会来推销自己的药物,他们纯粹是想让大家了解最新的研究成果。而这项最新研究恰好表明他们的药物效果出众!简直棒极了!你的医生频频点头表示赞同,因为这项研究的作者都是赫赫有名的科学家,而且研究本身的严谨程度和质量看似也无可挑剔。

然而,不难看出制药公司精心挑选了位于钟形曲线「效果极佳」一端的某项研究结果。

我将这种现象称为「提防只看一项研究的人」,但仔细观察那张小图表就会发现,实际上有三四项研究都表明这种药物「效果极佳」。因此,假如你的医生对此表示怀疑,制药公司可以这样回应:「您的谨慎态度很正确,单一研究确实难以令人信服。但请看,这里有另一个研究团队得出了相同的结论,这里还有一个团队也发现了一致的结果,而且这里还有一项重复实验,进一步验证了前两项研究的发现。」

尽管在我们的例子中,那个可信度存疑的替代医学网站似乎只能引用一项「效果极差」的研究,但他们完全可以通过增添一系列仅仅是「效果不佳」的研究来充实论据。或者,他们还可以引入一些研究对象略有差异的相关研究。例如,丙戊酸钠在治疗双相抑郁症方面无效;丙戊酸钠在维持双相障碍治疗方面无效;丙戊酸钠对双相障碍 II 型无效。

因此,人们往往会将研究结果过度简化为「Smith 等人在 1987 年发现该药物无效,但医生们仍在继续开具处方」。即便有人去查阅原始研究(事实上几乎没人会这么做),Smith 等人的论文也不会明确声明:「请注意,本研究仅针对双相障碍的维持治疗,这与双相障碍的急性抗躁狂治疗是两个不同的话题,我们并未对后者发表任何意见。」相反,论文可能只会用类似「在为期六个月、涉及 91 名患者的试验中,丙戊酸钠未能显示出优于安慰剂的效果」这样的标题,并天真地假定阅读的专业人士完全理解急性治疗和维持治疗之间的区别(哈哈哈哈哈)。

因此,我们不应该仅仅「提防只看一项研究的人」,而应该「提防没有全面、客观地审视研究综述就轻易下结论的人」。

二、最低工资辩论的迷雾

我认为医学科学总体上仍然相当健康,在大多数存在争议的医学问题上,医生和研究人员的共识基本是正确的。

(反而是那些看似无争议的问题才更值得我们警惕)

然而,政治领域却缺乏这种保护机制。

让我们以最低工资问题为例吧(别嫌老生常谈)。想必大家都听说过 Krueger 和 Card 在新泽西州进行的那项研究,结果表明提高最低工资并不会对经济造成负面影响。我们可能也听说过一些反对声音,称这项研究已被彻底驳斥,斥之为可耻的、不诚实的统计学术不端。或许有人还知道,Card 和 Krueger 后来发表了一篇颇具说服力的反驳文章,回应了这些质疑。此后,又有一系列规模更大、方法更为先进的研究相继问世。其中,像 Dube 的研究没有发现明显影响,而 RubinsteinWither 的研究则发现了显著影响。这些仅仅是冰山一角;实际上,支持和反对的研究恐怕多达数十甚至上百项。

那么,我们是不是可以通过元分析和系统综述来解决这个问题呢?

这完全取决于你想要选择哪种观点。你会倾向于那项对 14 个研究进行元分析的结果吗?它指出,人们普遍认为的高最低工资带来的负面影响很可能只是发表偏误导致的。或者,你可能更认同另一项涵盖 64 个研究的元分析?它得出了相似的结论,并在纠正相关问题后发现,最低工资实际上并不产生影响。也许,你会对那项覆盖 55 个国家的元分析更感兴趣?它在大多数研究对象国家中都发现了最低工资的影响。又或者,你更愿意相信那篇系统性综述?它审视了约 100 项研究,发现最低工资确实产生了显著且一致的影响。

我们能信赖各大新闻媒体、智库、经济学博客以及其他机构对这些证据的概括和总结吗?

CNN 声称,85% 的权威研究表明,提高最低工资会导致就业岗位减少。然而,raisetheminimumwage.com 却宣称:「二十年来严谨的经济研究发现,提高最低工资并不会导致工作岗位减少……如今,研究人员和企业都一致认为,大量证据表明,提高最低工资不会减少就业。」Modeled Behavior 表示:「大多数新的最低工资研究都支持最低工资上涨会增加失业率的假说。」预算和政策优先中心则指出:「提高最低工资会减少低收入工人就业机会这一普遍观点,是实证经济学中研究最为广泛的议题之一。大量证据表明,这种影响微乎其微,甚至可以忽略不计。」

那么,经济学家又是如何看待这个问题的呢?毕竟他们是这方面的专家。

事实上,有 500 名经济学家联名给政策制定者写信,声称经济学理论表明提高最低工资是个糟糕的主意。这似乎是一个颇具分量的共识...

然而,有 600 名经济学家联名致信政策制定者,声称经济学研究表明提高最低工资实际上是一个明智之举。(感谢 Greg Mankiw 提供此信息)

那么,让我们对经济学家进行一次正式调查吧。结果如何呢?

raisetheminimumwage.com 这个网站——如果要说有什么最公正的信息来源的话,它应该算一个——信心十足地告诉我们,「一个具有指标性意义的例证是芝加哥大学布斯商学院 2013 年进行的一项调查。在这项调查中,顶尖经济学家以近 4 比 1 的比例认同,提高最低工资并将其与物价指数挂钩,其利大于弊。」

然而,Employment Policies Institute(就业政策研究所)——这个名字听起来像是极力想让人觉得它是个中立的信息来源——却向我们报告说,「超过 73% 的美国经济学会(AEA)劳动经济学家认为,大幅提高最低工资将导致就业岗位减少,68% 认为这些就业损失将对技能最低的劳动者造成不成比例的影响。只有 6% 的经济学家认为提高最低工资是缓解贫困的有效手段。」

由此可见,整个问题复杂得令人困惑。但除非你极其仔细地研究,否则你永远不会意识到这一点。

如果你是一个保守派,你在你信赖的网站上看到的内容可能是这样的:

经济学理论一直表明,提高最低工资会导致失业增加,但左派始终拒绝接受这一基本事实。1992 年,他们大肆宣传 Card 和 Krueger 的一项研究,声称最低工资上涨并不会带来负面影响。然而,这项研究很快就被揭穿,被证实是基于统计学上的不当操作和「数据美化」。此后,数十项研究相继发表,印证了我们一直以来的认知——过高的最低工资无异于经济自杀。系统性综述和元分析 (Neumark 2006, Boockman 2010) 都一致表明,绝大多数研究都支持这一观点——73% 的经济学家也持相同看法。正因如此,近期有 500 位顶尖经济学家联名致信,呼吁政策制定者不要轻信那些已被否定的自由派最低工资理论。与其听信天真的自由派空谈,不如关注实证研究结果和绝大多数经济学家的意见,反对提高最低工资。

如果你是左派人士,你可能会在你信赖的网站上看到这样的内容:

人们曾普遍认为,实行最低工资制度会导致失业率上升。然而,Card 和 Krueger 在 1992 年发表的一项著名研究彻底颠覆了这一传统观念。此后,类似的研究结果已被重复验证超过50次,而进一步的元分析 (Card and Krueger 1995, Dube 2010) 也未发现最低工资对就业有任何负面影响。主流经济学家以 4:1 的压倒性比例认同提高最低工资的益处大于潜在的负面影响,这也是为什么超过 600 位经济学家联名向政府请愿,呼吁提高最低工资。我们不应该听信保守派那些基于早已被驳斥的理论的危言耸听,而应该相信扎实的实证研究结果和绝大多数经济学家的专业判断,支持提高最低工资。

来吧,亲自试试看。在谷歌上搜索这个话题看看出现什么样的结果。如果搜索结果与我刚才所说的不太一致,那往往是因为那些文章的学术水平甚至还达不到我所描述的程度。有一半的网站只是简单地引用 Card 和 Krueger 的研究就草草了事了!

这些网站上列举的大量研究和专家观点看起来非常有说服力。但实际上,其中有一半的内容是错误的。

在接受教育的过程中,大多数聪明人通常都会学会不盲目信任权威的论证。假如有人说「相信我关于最低工资的观点吧,因为我看起来很可靠」,他们中的大多数人心里至少会有个声音说:「我应该要求看看具体证据」。如果他们真的很聪明,还会提到「经同行评议的实验研究」这个关键词。

然而,我担心的是,大多数聪明人还没有意识到,即便是一份包含数十项研究、多项元分析、数百位专家意见,以及显示几乎所有学者都支持某个论点的专家调查——仍然可能是胡说八道。

这是非常遗憾的,因为这恰恰是那些想要误导受过教育的听众的人最喜欢使用的手段。

三、用漏斗图寻找最低工资研究的真相

我并不想提倡极端的怀疑主义。

举个例子,在最低工资问题上,我注意到只有一方提供了漏斗图。漏斗图通常用于检测发表偏误,但它还有另一个用途——它几乎完美地呈现了我们前面讨论的「钟形曲线」。

这个分布图虽然更像针状而非钟形,但其核心含义依然成立。我们可以看到,分布以 0 为中心,这表明在纷繁复杂的数据中,确实存在一些真实的信号。曲线略微向左倾斜,意味着发现最低工资负面影响的研究比发现正面影响的更多。然而,由于曲线不对称,我们可以将其解读为很可能存在发表偏误。总的来说,我认为至少有一些证据支持自由派在这个问题上的观点。

当然,除非有人已经看穿了我对这些研究、元分析和专家调查的了解,并找到了操纵漏斗图的方法。这种可能性我可不敢完全排除。

(好吧,我确实有点想宣扬彻底的怀疑主义了)

此外,我还应该指出,这个问题远比简单地判断哪一方正确要复杂得多。最低工资的效果可能会因行业、是州级还是联邦级工资标准、经济是处于衰退还是繁荣期、是从 5 美元提高到 6 美元还是从 20 美元提高到 30 美元等诸多因素而有所不同。图中有 11 项研究显示效果甚至比 -5 还要糟糕,很可能它们对于各自研究的具体问题都是准确的——就像丙戊酸钠这种药物,可能是有效的抗躁狂药,但却是糟糕的抗抑郁药。

(彻底的怀疑主义听起来确实比搞清楚这一切要轻松得多)。

四、关于谨慎求证的消极建议

然而,一个问题仍然存在:当你没有像漏斗图这样的系统性证据时(这在大多数情况下都是如此),应该怎么办?

对此,我没有一个令人满意的积极答案。不过,我确实有几个值得参考的消极建议。

首先,如果你不确定自己是否已经全面考察了所有证据,那么对大多数事情都应该持谨慎态度,降低你的确信程度。

其次,不要轻信那些明显带有偏见的网站(比如 Free Republic、Daily Kos 或 Dr. Oz)声称要为你呈现某个问题的「证据全貌」,即使这些证据看起来非常有说服力。对于任何列出「关于 X 的误解与真相」的网站,你的警惕性要加倍;对于使用「某某人用铁一般的事实粉碎了对方关于 Y 的谎言」之类夸张说法的网站,警惕程度要翻两番;而对于 RationalWiki 这类网站,警惕程度则要提高到八倍。

最后,也是最重要的一点:即便有人向你展示了看似无可辩驳的证据来支持某个观点,在你通过简单的谷歌搜索确认反方是否也有同样有力的论据之前,也不要轻易相信。


Thoughts Memo 汉化组译制
感谢主要译者 claude-3.5-sonnet,校对 JarrettYe
原文:Beware The Man Of One Study | Slate Star Codex
发表于 2014 年 12 月 12 日
作者 Scott Alexander

专栏:Slate Star Codex


← 返回目录