裸体皇帝的舞蹈

原文:The dance of the naked emperors - by Adam Mastroianni

《同行评议的兴衰》后续

作者:Adam Mastroianni

2022 年 12 月 28 日

上个月,我把一份 PDF 往网上一扔,就算「发表」了篇论文,人们的反应是:「好文!有点想法聊聊。」

两周前,我写了篇文章,说同行评议是场失败的实验,替代方案之一就是直接把 PDF 传到网上。结果有些人急了:「打住!你小子!」

有位终身教授暗示,她或许会想办法让我丢掉饭碗。一位博士指责我搞「愤世嫉俗的无认知胡话乱炖」——这名字给后现代噪音乐队用倒不错。我还收到些古怪且带点威胁意味的邮件,其中一封附了我个人网站的截图,上面高亮标出我的即兴喜剧经历,以此证明我不折不扣就是个小丑。好吧,这我倒认。

(当然,也有不少好话。)

《实验历史》前情提要

简单回顾,上篇文章我的核心论点是:

  1. 长久以来,科学发表方式本就多样;如今这种普遍的、发表前必经的同行评议,既相当年轻,在历史上也属异类。

  2. 这套系统似乎既未达成其宣称的目标,也未实现我们寄予的期望。

  3. 值得试试别的路子。

本质上,这是反对科学的「单一文化」。为何人人都必须以同一种方式发表?除非你极度确信这种方式优于所有其他方式——并且对每一个人都更优!——但在我看来,这种确信近乎疯狂。上传 PDF 对我有效,但人们交流发现的方式还有很多,我希望大家都能去尝试。

除了威胁,文章也引发了不少精彩评论。感谢所有留言的朋友!以下是我的一些回应。

对大众的恐惧之一:当诺贝尔奖可在家自助打印

首先,有人担心,如果所有人都选择网上传 PDF 而非投稿期刊,世界会怎样。例如,Annon 写道

我不知道解决方案是什么。坦白说,我在期刊出版业干了 15 年。

你成功自出版了一篇文章。但如果每个写论文的人都这么干,每周就会有数百份稿件上传,毫无质量控制,也极难被发现——除非你像自出版小说作者那样,在社交媒体上玩命推销自己。

我理解这种担忧,但觉得其背后的世界模型错了。

试想,如果诺贝尔委员会决定不再评选得主,转而宣布:「人人皆可在家打印诺贝尔奖证书!」

若因此担心人们会整天忙着打印奖状,那就太傻了——根本没理由这么做,因为这奖状已一文不值。如果你跑到实验室嚷嚷:「看呐,我有四千张诺贝尔奖证书!」大家只会哄堂大笑。

我认为论文发表同理。目前,在期刊发论文(期刊越权威,加分越多)能赚取「学术信用」,所以大家拼命多发。但如果「发表」仅意味着「往网上传份 PDF」,发表行为本身就不再带来信用,只为刷量而狂发论文,只会让你显得很蠢。

我无需想象这场景,因我正身处其中。当我为期刊写稿时,大脑会催我:「按规矩来,多出快跑,赶紧完事。」

但当我为**《实验历史》**撰稿时,大脑会说:「务必把活干好!要诚实、有趣、心存善念!」没有期刊为我背书,我能依仗的只有自己的声誉和工作质量。我当然可以耍些花招博眼球——「医生不想让你知道的 12 个心理学秘密!」——可如果人们点开一看觉得是垃圾,就不会再来,也不会推荐,很快我便只能自说自话。

正因如此,我并不担心劣质论文泛滥——我们早已身处劣质论文的洪流之中。你很快就能学会忽略它们,就像忽略垃圾邮件、无聊网剧和诈骗电话一样。重申我的核心观点:科学是「强链接」问题。坏论文有多少,我不担心;我担心的是论文有多少。

对大众的恐惧之二:当人人皆可发声

这类担忧的另一个版本是:如果谁都能畅所欲言,岂不天下大乱?

Jerry D. Harris 写道:

我可太期待了:在一个没有同行评议作为壁垒的世界里,将涌现大量文笔拙劣却广受追捧、免费可得的论文,由「科学家」们撰文「论证」神创论与智能设计论的真实性、人为气候变化的虚假性,以及疫苗的无效性。

我也理解此虑,但同样认为其世界模型有误。

没有什么能阻止神创论者或任何人创办自己的同行评议期刊。事实上,他们早就干了。比如**神创论期刊**,本月刚出了新刊。

所以,同行评议并非阻止神创论者发表的壁垒。那么,是什么阻止了神创论成为人类起源的主导理论?

神创论者的论据更站不住脚这一事实。让人相信地球只有七千年历史,这很难。你得说服对方:你手握记载上帝原话的真经;其他号称上帝语录的都是冒牌货;经文必须按此特定方式解读,别无他解;而所有声称发现反证的考古学家、古生物学家、生物学家等等,要么全错了,要么是魔鬼派来迷惑你的。

当然,让人信这套并非不可能,否则《神创论期刊》也不会存在。只是这套说辞缺乏说服力,故而无法赢得广泛认同。

这是好事!若某事确为真理,它理应在公平竞争中击败任何谬误。而我们若真心求索真理,便理应期盼这场竞争公平进行。

同行评议对我有效/不,它无效

一些读者分享了他们与同行评议的不快经历,例如 Martina Pugliese(《涂鸦数据卡片》作者)、mardin56Grey Coupland。《英国医学杂志》前主编 Richard Smith 评论道

我觉得这非常耐人寻味:一个处于科学核心的流程,其根基竟是信仰而非证据。事实上,相信同行评议比相信上帝更不科学,因为我们有大量证据表明前者无效,却缺乏证据证明后者不存在。

另一方面,也有读者分享了同行评议带来的良好体验,例如 JakeNuno Henrique FrancoJohn Vidale。Jake 写道:

我是人文学科的一名早期研究者。我常发现,同行评议确实在发表前改进了我的工作,催生了更优质的研究(尽管我知道有些同行没这么幸运)。

我很高兴这对部分人有效。对此,我想补充五点:

  1. 当人们每年集体投入 [相当于] 1.5 万年的劳动来互审稿件时,我当然希望其中一部分能有所帮助。这大概是该系统能达到的最低门槛了。

  2. 发表前同行评议只是获取反馈的众多方式之一。人们自然会评论自己关心的事物,且出于兴趣的评论远比出于义务的有价值。我那篇《事情可以变得更好》获得的建设性批评,远超我的任何期刊论文。即使它发布后无人问津,那也是宝贵的反馈:「看来没人在乎!要么我得做得更好,要么得换方向。」

  3. 传统出版意味着论文一旦发表,改进便告停止。(当然可以发更正,但原则上论文已是「终稿」。)可是,为何仅仅因为论文公开了,你就要停止听取意见并持续完善它呢?

  4. 若这方式对你有用,请继续。

  5. 若这方式对你没用,试试别的。

微调与设想

许多读者对改进同行评议提出了设想。

TransitoryTransitory 的作者):

一个想法:研究论文应像列出作者一样,列出审稿人姓名。

Ben SahlmuellerBenerkenswert 的作者):

我倾向于一个去中心化系统,具备开放评审、开放获取、更强问责等特征。[…]

Josh McGrath

[如果] Arxiv 有个类似 OpenReview 的评论区呢?这样交流就集中了。或者,搞个 Reddit 式的社区自治论坛?

Stan Jastrzebski

如果出版更像烂番茄网站对影视作品的评论模式,会怎样?

镜中人The face in the mirror 的作者):

在特定子领域,结合使用针对性强和通用性强的大型语言模型(LLMs)进行自动化同行评审,是否可行?

如果你预感某方法有效,就去试试!如果你是编辑,就在编辑流程中做个实验。如果你是工程师,就去开发那些 LLM 看看效果。如果你对劣质论文感到愤怒,就开始在网上发表你的评议。无论你是谁,几乎总有能做的事。

但世上没有「科学皇帝」能凭法令推行变革;这取决于你。若你觉得工程浩大、不愿费心,也无妨。世间问题众多,你无法全部包办。

其他精彩评论

Noah M

仅仅在 25 年前,你还需要期刊来实体印刷和分发作品。[…] 如今,阅读论文的物流与物质成本几乎为零。我们过去说服自己,期刊提供的远不止「送报」服务——因为那至少是我们当时的最低需求。随后,我们基于这一可笑执念,建立了一整套激励与晋升体系。

此论甚为精辟。我能感到现状偏见如何禁锢了我们的想象力。

Ruz

我提出质疑时,遇到过有人高度防备,也遇到过有人惊喜地发现,自己竟能获得超越基础层面的相关反馈!做同行评议让人不适,而且枯燥

枯燥 一词令我警醒。评审本应有趣。论文的主张是真是假,理应至关重要;评审它的唯一理由,应是你关心这些主张。我们觉得评审枯燥,暗示着在我们心底,认为眼前的论文其实不值得关注。

Akshat Mahajan

[但]我们确实拥有真正开放、零审核的平台(如 vixra.org)。由于许多根本原因,它们未能实现促进更好科学的预期效果。

我同意 Mahajan 的第一点:基础设施已备,但人们未用它进行实验。他们只是把 PDF 挂到网上,目标仍是为通过期刊评审。这好比每人都有辆能越野的吉普,却只肯开上公路。

我不同意第二点:这些平台并未「失败」。若你给每人一辆吉普,希望他们驶向荒野却无人响应,问题不在吉普,而在驾驶员。你需要减轻他们对离开公路的恐惧,说服他们荒野值得探索,并为他们加满油。

正因如此,尽管我乐见人们尝试各种替代平台,但我认为,仅靠打造完美网站无法革新科学。我们必须:a) 解放思想,并 b) 提供资源支持。我正在推进(a),并已着手筹划(b)。

请别推倒梯子,我们正爬着呢

我由衷感激那些阅读本博客并在评论区贡献真知灼见的聪明人。即使观点相左,我也总能有所收获。但说实话,我在各处收到的一些评论——不少来自科学家同行——实在充满了恶意。

我清楚在网上写作的风险,也知道自己不是第一个挨骂的。只是没料到,争议的焦点竟是这件事。它为何如此撩动人们的神经?

我想有两个原因。

首先,是 第三人效应:人们总认为别人更容易被说服。头脑清醒;却是个会被啤酒广告里的美女忽悠的傻瓜。理性评估论点;只听得进最大声的喊叫。不会受一篇博客文章影响;则会。

这想法既蠢又傲慢,但我们难免如此,科学家或许尤甚。因此,听到不喜欢的论点便心生不安,也就顺理成章——我们愚蠢地担心,这些论点会蛊惑这个「巨大而愚蠢的世界」里的所有笨蛋。

其次,是社会支配取向。科学家或许自视为平等主义者,因为他们反对基于种族、性别或财富的等级。但他们中许多人,却强烈信奉基于学术声望的等级秩序。在他们看来,学位更多、经费更足、头衔更显赫的人,理应高于那些不具备这些的人。他们甚至不觉得这是等级制,因为这个词太难听。于他们,这只是自然法则。

(欲见此景,不妨观察两位学者初次见面的情景。他们最先想摸清的便是:1)职业阶段(是研究生、博士后还是教授);2)所属机构。这两者是定位某人在学术界坐标的 X 轴和 Y 轴:顶尖机构的教授地位尊崇,无名学府的研究生则无人问津。长相老成的研究生有时会被误认为教授,对方起初会亲切交谈,一旦发现弄错,便常会惊恐地找个借口溜走。)

全心信奉某种等级秩序的人,最讨厌别人质疑其根基。如果同行评议无效甚至有害,那就意味着高居顶端者可能是「裸体皇帝」。这不仅让皇帝们不安,也让那些正努力「脱衣」、梦想有朝一日黄袍加身的人感到不安。事实上,这不止是不安——更是危险,因为它可能推倒一架正有许多人攀爬的梯子。

但是,为一个号称基于证据的体系辩护,本该相当容易。你应该能算清现行方式的成本收益,并能清楚表明利大于弊。你应该能坦然出示数据,回应任何真诚的质疑,并对自身认知的局限感到坦然。你绝不该沦落到要靠资历压人,或威胁让我丢饭碗。如果只剩这几招,那你的确没多少底气。

有请小丑登场

网上论战自有其价值。它能帮你剔除论证中的赘肉,宛如一场「认知抽脂术」。它将各种主张暴露在光天化日之下,任人检视评判。除了那些吼叫,这过程也挺有趣。

但这终究只是模拟战,只是电子穿过光纤、像素在屏幕上跳动。真正的战场在别处。思想的成功,不在于让人点头称是,而在于激励人们起身行动

「如果你尝试了却失败怎么办?那会显得你很蠢!」 朋友,你做过实验吗?若没有失败的可能,又何来学习的可能?

所以,现在是行动的时候了。愿最好的想法胜出。倘若我最终显得很蠢,那也无妨。毕竟,如你所见,我确实是个小丑。