同行评议的兴衰
原文:The rise and fall of peer review - by Adam Mastroianni
为何史上最宏大的科学实验失败了,以及为何这未尝不是件好事
2022 年 12 月 14 日
过去大约六十年,科学界一直在自身进行一场实验。实验设计算不上高明:没有随机分组,也没有对照组。确切地说,无人总揽全局,也无人系统性地测量效果。然而,这却是有史以来规模最庞大的实验,参与者囊括了地球上的每一位科学家。
其中大多数人,甚至未曾意识到自己身在其中。包括我在内的许多人,在实验启动时尚未出生。倘若我们当初察觉,或许会要求其至少遵循基本的科学严谨性。之所以无人反对,大概是因为那个假设看起来不言而喻:如果有人在发表前审查每一篇论文,并筛掉不合格的,科学必将变得更好。他们称之为「同行评议」。
这是一次根本性的变革。从古代到近代,科学家们通过信件和流通手稿进行交流,主要的阻碍无非是纸张、邮资或印刷机的成本,以及极少数情况下天主教会的「关切」。科学期刊虽于 17 世纪问世,但其运作更接近于杂志或通讯,选稿流程五花八门,从「来稿照登」到「编辑私下问友」再到「学会集体投票」,不一而足。有时期刊甚至苦于无稿可发,编辑们不得不四处央求朋友投稿,或亲自撰文填补空白。几个世纪以来,科学出版始终是个大杂烩。
(顺带一提,爱因斯坦的论文中仅一篇接受过同行评议,他对此大为惊讶与不满,转而将论文发表在了另一家期刊。)
第二次世界大战后,一切为之改变。政府将巨额资金注入研究领域,并召集了「同行评议员」,以确保钱没有浪费在愚蠢的提案上。资金催生了论文的洪流,昔日愁无米下锅的期刊,如今却要为遴选哪些文章付印而发愁。出版前审稿这一在 1960 年代前尚颇为罕见的做法,逐渐变得普遍,最终成为金科玉律。
如今,几乎每一家期刊都依赖外部专家审查论文,无法取悦审稿人的稿件便遭拒绝。你当然仍可写信告知友人你的发现,但在招聘委员会和资助机构眼中,仿佛唯有印在同行评议期刊上的,才算是科学。这场我们已进行了六十年的宏大实验,其结局便是如此。
结果现已揭晓。它失败了。
巨大的投入,微茫的收效
同行评议是一项规模浩大且代价高昂的干预。据估算,全球科学家每年总计耗费相当于 1.5 万年的时间评审论文。一篇论文可能需要数月乃至数年才能走完评审流程,这对于致力于攻克癌症或阻止气候变化的研究者而言,是巨大的时间损耗。此外,大学每年还需支付数百万美元订阅这些期刊,尽管其中大量研究由纳税人资助,而稿酬和审稿费却分文不落作者与审稿人之手。
如此规模的干预,理应产生显著的效果。好比向某个学区投入一亿美元,你总期望最终能清晰看到学生因此受益。若几年后你前去询问:「嘿,我那一个亿到底起了什么作用?」得到的回答却是:「呃,我们不太确定它是否真起了作用,而且我们现在都很生你的气。」你定会感到无比沮丧和尴尬。同理,若同行评议真能提升科学质量,其效果应当显而易见;倘若不能,我们也理应感到同等程度的沮丧与尴尬。
事实是,它未能做到。在众多不同领域,研究生产力 数十年来停滞不前甚至下滑,同行评议似乎并未扭转这一趋势。新思想难以撼动旧有学说。许多经同行评议的发现无法被重复验证,其中大部分可能根本就是错误的。当请科学家评价 20 世纪那些荣获诺贝尔奖的物理学、医学和化学发现时,他们认为,在同行评议普及前诞生的成果,与之后的成果同样优秀,甚至更胜一筹。事实上,你甚至无法请他们评价 1990 年代和 2000 年代的诺奖级发现,因为其数量已稀少到不值一提。
当然,二战以来世事纷繁。我们执行这次实验的方式实在糟糕,各种因素混杂难辨。从这些宏观趋势中,我们只能断定:无从知晓同行评议是否有所助益,它或许反而有害,代价极其高昂,而当前科学文献的整体状况令人堪忧。用行话说,这纯属「翻车」。
事后剖析
问题出在哪里?
一个简单的问题是:同行评议是否真的履行了其本职?它能否揪出劣质研究并阻止其发表?
答案是否定的。科学家们曾进行实验,故意在论文中植入错误,送交审稿人评审,然后统计他们发现了多少。审稿人在此方面的表现相当糟糕。一项研究中,审稿人仅发现 30% 的主要缺陷;另一项是 25%;还有一项是 29%。这些缺陷均为关键问题,例如「论文声称是随机对照试验实则不然」、「图表清晰显示毫无效果」、「作者结论完全得不到数据支持」。审稿人多半未能察觉。
事实上,我们有确凿的现实世界证据表明同行评议失灵:欺诈性论文层出不穷。若审稿人尽职尽责,我们本应常听到这类新闻:「科尼利厄斯·冯·弗劳德教授因试图向科学期刊提交伪造论文于今日被解雇。」但我们从未听闻。相反,几乎每一起学术欺诈事件都 始于 论文通过评审并得以发表。直到后来,才由某位好心人——常常是作者自己实验室的成员!——觉察异样并着手调查。这篇数据明显伪造的关于‘不诚实’的论文(颇具讽刺意味)、这些发表了数十甚至数百篇欺诈性论文的家伙,以及下面这场闹剧,无不如此:

Josemari Feliciano @SeriFeliciano
等一下,这些根本不是真正的误差线……作者就是在条形图上方直接放了字母「T」 😭

2022 年 11 月 28 日 下午 10:22
55,309 点赞 4,419 转发
为何审稿人连基本错误和公然欺诈都发现不了?一个原因是,他们几乎从不查看所审论文背后的原始数据,而那里正是错误与欺诈的藏身之所。实际上,大多数期刊根本不强制要求公开数据。按规定应「依要求提供」,但大多数人并不会提供。这便是为何我们会陷入诸如约 20%的遗传学论文因 Excel 将基因名自动转为日期而数据全废的滑稽境地。
(一位编辑开始要求投稿作者补充原始数据后,一半的作者选择撤稿。用这位编辑的话说,这暗示着「一种可能:原始数据从一开始就不存在。」)
同行评议的创立,甚至可能助长了劣质研究。假设你试图发表一篇证明看小狗视频能促使人多捐款的论文,而审稿人 2 表示:「除非看猫视频也有效,否则我难以信服。」此时你将承受巨大压力,必须让「猫视频研究」也成立。或许你会稍微「调整」数字,或剔除几个「异常值」,或测试一堆猫视频直到找到一个有效的,而对无效的绝口不提。🎶 略施小诈 // 论文发表 // 今夜狂欢 🎶
同行评议,谁把你当真
要检验同行评议是否管用,还有一个角度:它是否真的赢得了科学家们的信任?
科学家们常把「重视同行评议」挂在嘴边。但人们言不由衷的时候多了去了,比如「幸会幸会(线上限定版)」和「我永远不会离开你的,亚当」。若观察科学家的实际行动,便会清楚地发现,他们并不真把同行评议当回事。
首先,若科学家真在乎同行评议,那么当论文被拒稿后,他们理应根据反馈意见,补做实验,重写论文。然而实际上,他们通常只是把同一篇论文转投给另一家期刊。这是我初入心理学领域时最早学到的「常识」之一,当时我的本科导师解释说,论文发表存在「很大的随机性成分」(说白了就是:「全看运气,老弟」)。第一家期刊不行,就试下一家。她告诉我,发表就像买彩票,想中奖就得不停地买。当那些功成名就的严肃科学家都公开宣称,你这套所谓的科学事实核查体系并不比随机抛硬币更高明时,这局面着实可悲。
其次,论文一旦发表,评审意见便立刻沦为废纸。少数期刊会公开评审意见,绝大多数则不会。没人关心审稿人到底说了什么,也没人在意作者是如何修改的,这本身就表明,从一开始就没人觉得那些评审意见真有什么分量。
第三,科学家们会毫不犹豫地认真对待未经评审的研究。我们阅读「预印本」、工作论文和博客文章,这些都未经同行评议。我们使用皮尤、盖洛普和政府的数据,这些也未经评审。我们参加学术会议,听人报告未经审查的项目,但绝不会转头对同伴说:「真有意思!我等不及它通过同行评议,好知道这是不是真的。」
相反,科学家们心照不宣地默认同行评议并未增添价值,他们通过审视研究方法和结果自行判断科学工作的好坏。偶尔,有人会把这层窗户纸捅破,例如诺贝尔奖得主悉尼·布伦纳所言:
我不相信同行评议,因为我认为它非常扭曲,而且说白了,这就是在向平庸的均值回归。同行评议正在阻碍科学。事实上,我认为它已彻底沦为一个腐败的体系。
我们能修复它吗?不,不能
我曾设想过改进同行评议的种种方法。审稿人应该核查原始数据!期刊应该确保论文没有造假!
想象事情可以变得更好很容易——我的朋友 Ethan 和我甚至就此写了篇论文 ——但这绝不意味着实现改进同样容易。我对同行评议的抱怨,有点像看着每年约 3.5 万美国人死于车祸,然后说「大家开车该更小心点」。话是没错,可具体怎么做呢?
问题并非不够努力:别忘了现行体系每年耗费相当于 1.5 万年的劳动量,结果依然一塌糊涂。给审稿人付酬似乎并不能提升质量。培训审稿人也收效甚微。或许我们能在边边角角做些修补,但请记住,我们现在连用大写字母「T」代替误差棒的论文都能发表,这说明前路何其漫漫。
那么,大幅提高同行评议的严格程度如何?这听起来不错,但会使同行评议的其他问题雪上加霜。
例如,过去写科学论文可以颇有文采。如今为了取悦审稿人,你不得不把论文写得像法律合同。从前的论文会这样开场:「救命!一个神秘的数字正在迫害我」,而现在则是:「据称,人类在不同时空背景下存在,甚至具备若干特质、维度或相关属性,但这自然有待进一步探究(Smergdorf & Blugensnout, 1978; Stikkiwikket, 2002; von Fraud et al., 2018b)」。
简直糟糕透顶。结果就是,根本没人读这些论文。有些论文正文长达百页,附加上百页补充材料,通篇写得苦大仇深,巴不得你立刻合上。最近有朋友问我,上次从头到尾读完一篇论文是什么时候;我想不起来,他也一样。「现在只要有人跟我说喜欢我的论文,」他说,「我都会道谢,尽管我知道他们压根没读。」更严格的评审只会催生更枯燥的论文,读的人自然也更少。
提高严苛度还会加剧最致命的问题:仅仅知道自己的想法必须迎合审稿人口味才有价值,这一认知本身就会扼杀思考。这像重回青春期:做任何事之前,都得先问:「大家会觉得我酷吗?」当饭碗取决于能否产出受欢迎的想法时,你会练就一身自我审查的绝技,严防死守任何怪异或非主流的念头。这意味着革命性的思想将愈发稀缺,而除非你认为现状已臻完美,否则我们恰恰最需要这类思想。
退一万步,即便你真找到了改进同行评议且无副作用的神奇方法,你还得说服全球现存的近 3 万家科学期刊,将它应用到每年发表的约 470 万篇论文上。祝你好运!
同行评议比没有更糟:闻一闻,不等于验过货
同行评议没用,且很可能无法修复。但有点审查总比完全没有强,对吧?
要我说:大错特错。
想象一下,食品药品监督管理局(FDA)的「牛肉检验」流程,就是派个叫「加里」的伙计去闻闻牛肉,然后凭气味判断是否合格。通过「嗅探测试」的牛肉就能贴上「FDA 检验」标签。你肯定火冒三丈。没错,加里或许能揪出几批坏肉,但绝大多数问题肉品显然会被漏掉。这套烂到家的体系比完全没有检验更糟,因为它让人们误以为自己安全,实则不然。
我们现行的同行评议体系正是如此,而且危害不浅。那个已被彻底推翻的「疫苗导致自闭症」理论,就出自全球顶级期刊上的一篇同行评议论文,并且堂而皇之地保留了十二年才被撤回。有多少孩子因为这篇通过评审、盖上了「科学认证」印章的烂文章,而没能接种疫苗?
在美国,销售维生素 C 片必须在标签上声明:瓶身所述功效未经食品药品监督管理局评估。或许科学期刊也该在每篇论文上印上类似警告:「本文真实性未经实质核查。据我们所知,内容可能纯属虚构。」这至少能让人们保持恰如其分的怀疑。
科学必须是自由的
同行评议最初为何显得如此合情合理?
我想,根源在于我们误解了科学的运作方式。我们曾将科学视为一个 「弱链接」问题,认为科学的进步受限于我们最薄弱的环节,即那些质量最差的工作。若你信奉此道,便会觉得铲除错误观念至关重要——最好能防微杜渐,直接阻止其发表。即便在此过程中误伤一些好点子,也在所不惜,毕竟清除糟粕才是头等大事。
然而,科学实则是一个「强链接」问题:进步仰赖于我们最卓越的成果。更好的想法未必能即刻胜出,但它们终将胜出,因为它们更有用。你无法用亚里士多德的物理学 登陆月球,无法靠自然发生说把泥土变成青蛙,也无法依据燃素论制造炸弹。牛顿的物理定律流传至今;而他关于点金石的配方则早已被人遗忘。我们并不需要一个科学权威机构来扼杀错误思想;我们需要的是它能允许新思想挑战旧思想,剩下的,交给时间。
若你仍怀有「弱链接」式的担忧,我完全理解。如果放任人们畅所欲言,他们有时确实会传播不实之言,这听起来令人不安。但现实是,我们目前并未真正阻止不实言论的传播;我们只是假装在阻止。更甚的是,我们偶尔还会给这些不实之言贴上「经某权威期刊审核」的闪亮标签,而这些标签极难撕下。这才更加可怕。
「弱链接」思维让科学审查显得合理,但一切审查的实际效果,不过是让陈旧的思想更难被推翻。别忘了,「地心说」曾是不证自明的真理。若在哥白尼的时代便有科学期刊,信奉地心说的审稿人定会拒斥他的日心说论文,并为自己成功阻止「谬论」流传而沾沾自喜。优生学曾一度是科学界的显学——你认为一群种族主义者会给一篇证明黑人与白人智力无异的论文开绿灯吗?会给任何一位黑人作者的论文放行吗?(若你觉得这是陈年旧事:这种模式至今仍在重演。)我们至今仍生活在认知的黑暗时代,今日我们所深信不疑的许多观念,终有一日会被证伪。同行评议,如同任何一种审查制度,仅仅是延缓了真理浮现的进程。
万岁,我们失败了!
无人主导我们这场长达六十年的同行评议实验,也便无人有责任宣告它的终结。既然无人出面,那就由我来宣布吧:
结束了,各位!让我们举杯共庆!大家辛苦了,恭喜。我们尝试了同行评议,但它并未成功。
说实话,我如释重负。那套系统简直糟透了!苦等数月,只换来编辑一句「阁下的论文不值得评审」?研读审稿人那充满莫名敌意、长篇大论的批评,仿佛你的论文是万恶之源?花上一整天时间发邮件哀求期刊,只为能使用完整的「years」一词,而不是被强制缩写成毫无道理的「y」(这事真发生在我身上)?这些糟心事,我们再也不必忍受了。
我知道,浪费了这么多时间,大家或许都有些失望,但实验失败并不可耻。是的,我们本该在全面推行前先小范围试点。但这没关系——当时它看起来是个绝妙的主意,如今我们知道了,它不是。这就是科学!当然,科学家之间相互评议、切磋琢磨,永远至关重要。只不过,眼下这种特定的、僵化的形式行不通罢了。
那么,我们现在该怎么做?上个月,我发表了一篇论文——准确地说,是把一份 PDF 直接扔到了网上。我用谁都能看懂的大白话写作,毫无保留——甚至坦承自己忘了为何要进行其中一项研究。我在文中插入了笑话,因为没人能禁止我这么做。我上传了所有材料、数据和代码,供天下人检视。我本以为会像个十足的傻瓜,无人问津,但至少我乐在其中,并且做了自认为正确的事。
结果,在我还没来得及告知任何人之前,成千上万的人已经发现了它,并开始评论、转发。

Chujun Lin @LinChujun
科学原来可以如此有趣和真诚!简直不敢相信,我能在清晨六点半躺在床上读完一篇论文——这足以证明它有多棒了吧。强烈推荐!

PsyArXiv-bot @PsyArXivBot
Things could be better https://t.co/VcU9FKrJuz
2022 年 11 月 15 日 下午 12:03
10 赞 2 转推

Dr. Chanel Meyers @chanelkmeyers
唉,我们为啥不这样写论文呢?!如果能用大白话坦诚地写,我早就把研究全写出来了。易懂又有趣,读起来真享受!

PsyArXiv-bot @PsyArXivBot
Things could be better https://t.co/VcU9FKrJuz
2022 年 11 月 15 日 上午 3:51
21 赞 1 转推

Dr Priya Silverstein 🏳️🌈 @priyasilverst
这可能是我读过的最好的论文。

PsyArXiv-bot @PsyArXivBot
Things could be better https://t.co/VcU9FKrJuz
2022 年 11 月 14 日 下午 11:29
90 赞 21 转推
素昧平生的陌生人给我发来了深思熟虑的评议邮件。终身教授分享了他们的见解。美国国家公共电台(NPR)发来了采访邀请。这篇论文现在的浏览量,已经超过了我上一篇发表在顶级期刊《美国国家科学院院刊》上的同行评议论文。而且我敢打赌,从头到尾读完这篇新论文的人要多得多,因为最后几段尤其引发了大量的讨论。所以,你看,这或许是一条可行的路?
我不知道科学的未来会是什么模样。也许我们会在元宇宙里创作交互式论文,也许能把数据集直接「下载」到大脑,也许会在科技锐舞的舞池中交换耳语般的新发现。无论如何,它一定会比我们过去六十年的做法好得多。而要抵达那个未来,我们只需做我们最擅长的事:实验。
(本文的后续讨论 见此。)