科学文化如何改变与进步?许多人已指出科学的核心社会过程中的不足,如同行评审、资金授予方式、科学家选拔机制等。尽管批评往往有力,但强大的障碍阻碍了这些社会过程的广泛变革,导致近乎停滞的状态,以及对改进前景的冷漠。有时,人们会创立旨在以不同方式运作的新研究机构;遗憾的是,这些机构往往更多地被现有生态系统所改变,而非反过来改变它。本文中,我们勾勒了一幅科学的社会过程如何快速改进的愿景。在此愿景中,元科学扮演关键角色:它深化了我们对哪些社会过程最能促进发现的理解;这种理解随后能助力推动变革。我们引入了「元科学创业者」的概念,即致力于实现科学的社会过程的可扩展改进的人士。 我们认为:(1) 元科学是一种富有想象力的设计实践,探索社会过程的广阔设计空间;(2) 这种探索旨在发现新的社会过程,以释放潜在的发现潜力;(3) 去中心化的变革必须成为可能,这样拥有更优想法的局外人就不会被既有的权力中心所阻挡;(4) 理想情况下,变革应与科学和人类的最佳利益相一致,而不仅仅是追求时尚、政治流行或媒体友好;(5) 最终结果将是结构上更加多样化的科学研究环境;(6) 这将使得在现有环境中难以或无法进行的关键类型工作成为可能。为实现这一愿景,元科学必须发展并交织三个要素:富有想象力的设计实践、创业学科和研究领域。总体而言,这是一个元科学作为社会过程乃至科学文化改进引擎的愿景。
科学文化如何变化?
想象你是一位科幻小说作家,正在撰写一个描绘外星物种科学发现的故事。在你的故事中,你近距离展示了外星科学家——他们如何工作,如何生活。你会描绘他们在类似人类大学的机构中工作,拥有博士学位体系、资助机构、学术期刊等等吗?他们会使用同行评审和引用等社会过程吗?外星科学家会像人类科学家一样,就 h 指数和影响因子等衡量科学的尝试进行无休止的争论吗?
几乎可以肯定的是,我们人类科学社会过程的设计过于依赖历史的偶然性,以至于这些问题的答案不可能全是「是」。人类似乎不太可能已经找到了分配稀缺科学资源的最佳方式!我们甚至怀疑,即便是哈佛大学或美国国家科学基金会最热心的支持者,也不会将它们视为柏拉图式的理想。同样,h 指数及类似指标似乎也不太可能是衡量科学价值的普遍标准。
这并不意味着外星人不会与人类有许多共同的科学事实和方法论思想——例如,合理地使用数学来描述宇宙,或实验在增进我们理解中的核心作用。但似乎同样可能的是,这些外星人将拥有截然不同的社会过程来支持科学。那些社会过程会是什么?他们是否可能发展出比我们的科学机构更优越的机构,就像现代大学相对于中世纪的学术修道院那样?
「外星人会如何做科学?」这个问题虽然充满幻想,但思考起来很有趣。同时,它也是一个很好的刺激,能引发与人类直接相关的问题。例如:假设你得到了一大笔钱——比如一亿美元、十亿美元,甚至一百亿或一万亿美元——并被要求创办一个新的科学机构,可能是一个研究所或资助机构。你会如何利用这笔钱?
您是否旨在逐步改进哈佛大学、NSF、HHMI 等机构目前采用的方法?还是试图创建超越现有机构的全新机构,一种新的科学组织方式?不仅仅是在特定领域提出新的科学思想或方法,而是为科学创造新的社会过程;即选择和资助人类进行发现的新方式?毕竟,我们的远古祖先并未预见到人类发现生态系统可能实现的巨大改进[1]。或许,凭借足够的洞察力,进一步的变革性改进是可能的?
这些问题并非仅仅是假设性的。关于「科学的社会过程出了什么问题,以及我们如何改进它们?」这一议题,已有大量具体工作完成。部分成果体现在论文、文章和宣言中,阐述了如何修正或优化同行评审、资金分配、招聘流程或科学职业结构等方面。该领域的早期作品包括弗朗西斯·培根的《新亚特兰蒂斯》与《新工具》,以及万尼瓦尔·布什的《科学——无尽的边疆》等经典之作。当然,现代研究同样丰富多样:涵盖科学资助经济学、科学学、科学技术研究、科学政策等多个领域;在大众媒体上;以及在社交媒体及科学家间的非正式交流中均有体现。
除了这些提议,许多富有冒险精神的人正在建立新的、有时大胆不同的科学组织。有大型的新研究机构,如 Arc Institute、DeepMind 和 Altos。也有小型的「海盗式」创新团体,如开放科学中心(Center for Open Science)、DynamicLand、EleutherAI,以及数十甚至数百个类似[2]的组织。还有新的资助者,如 Convergent Research、Fast Grants、FTX 基金会、VitaDAO 等。当然,其中许多组织因其特定的研究重点而有所区别:例如,DeepMind 是最早专注于人工智能研究的大型组织之一。但许多组织也基于对科学基本社会过程的新颖或不寻常方法提出了自己的理论。当我们与这些组织的创始人交谈时,他们常常表达出希望,不仅他们的组织能够成功,还能成为一座灯塔,以如此辉煌的成功使背后的社会理念广泛传播,从而整体提升人类的发现生态系统。
这一希望有多现实?我们的发现生态系统是否会因新社会过程的成功实验而得到改善?还是它抗拒变革,只能缓慢进步?简而言之,本文探讨的问题是:发现生态系统的学习能力如何,我们能否改进其学习方式?在探讨这一问题时,许多相关问题自然浮现:发现生态系统是否支持快速试验大量极具想象力的社会过程?还是只能实现微小的、渐进的变化?拥有伟大想法的局外人能否取代现有方法?还是变革只能来自已经拥有巨大权力的人和组织?
我们将发现的是一个近乎停滞的发现生态系统,其中存在着阻碍关键社会过程改进的强大壁垒。我们相信改变这一状况是可能的。本文中,我们勾勒了一幅愿景,即元科学推动科学社会过程的快速改进。这一愿景要求元科学具备强大的理论学科基础,能够获得足以推动采纳新社会过程的决定性成果,包括可能取代现有者的进程。同时,它还需要一个强大的元科学创业者生态系统,这些人致力于实现科学社会过程的可扩展变革。从某种意义上说,本文探讨了人类认真对待元科学意味着什么。它关乎将这一努力置于科学的核心。我们相信,最终结果将是一套社会过程组合,其结构多样性远超今日,使得在现有环境中难以或无法开展的关键工作类型成为可能,从而拓展了可能发现的范围。
据我们所知,这些问题之前并未被深入探讨过。为了使问题更加具体,让我们勾勒一些今天可能(或正在)由大胆的资助者或研究组织尝试的异常社会过程的具体例子[3]。这些草图旨在作为简短的说明性示例,以唤起我们对「改变的社会过程」的理解。尽管这些例子是适度且保守的——事实上,有些想法可能对你来说很熟悉[4],尽管可能不是全部——但在科学领域广泛推广的版本将显著改变科学文化。这是一个长长的列表,旨在强调富有想象力的变革所带来的众多不同机会。在文章的后面部分,我们将发展出更深层次的思维方式,以产生更多变革的想法。
- 基于方差的资助:资助者不应仅依据评审者给出的最高平均分来发放资助,而应将评审分数的方差(或峰度等类似衡量分歧的指标[5])作为主要信号:只资助那些极具争议性的事物(有人热爱,有人厌恶)。支持此类计划的一个论点是,相较于高概率取得一般成功的项目,你可能更倾向于资助那些有较小几率取得突破性成功的项目。另一种观点则认为,你应立志于仅资助那些只有你会资助的项目,因此应寻找相应的信号:那些所有人都认为优秀的项目必定会在其他地方获得资助。而如果你仅仅资助他人也在资助的项目,那么你的边际影响[6][7]将微乎其微。
- 世纪资助计划[8]:征集项目资助申请,资助期限为 100 年。通过捐赠模式实施,其成本将是传统 5 年或 10 年资助的小倍数。目的在于激发一种重要的智力暗物质[9]:那些具有巨大科学价值但无法在短期内研究的问题。灵感来源于诸如莫纳罗亚天文台的二氧化碳监测、弗雷明汉心脏研究和开普格里姆空气档案等开创性项目。
- 教职保险:处于终身教职轨的科学家在选择项目时往往采取保守策略。通过提供若未能获得终身教职则给予高额赔付的方式,鼓励人们大胆尝试。假设 80% 的终身教职轨教师最终获得终身职位[10] ,那么高额赔付的成本仅需在现有福利基础上适度增加。每年 8000 美元的保费,连续缴纳 6 年,采用 5 倍乘数并基于合理的利率假设,赔付金额将超过 30 万美元。这在许多领域和机构中相当于数年的终身教职前薪资。此建议体现了两个更普遍的原则:(1) 将风险转移给更能承受的一方,从而降低整个系统的风险规避程度;(2) 通过改善失败时的备选方案来降低风险,是提升人们抱负的一种可行方法[11]。
- 失败审计:许多资助者提倡高风险、高回报的研究,但这往往只是研究表演,并非真正意义上的高风险。例如,2018 年,欧洲研究委员会发布了一份自我祝贺的报告,声称:(a) 他们主要资助「高风险」工作;(b) 他们资助的几乎所有工作都取得了成功,79% 的项目实现了「科学突破」或「重大科学进展」。如果几乎每个项目都成功,那么这并不是我们所认可的「高风险」定义[12]。为了证明他们对风险的重视,资助者可以对其资助项目进行可信的独立审计,如果资助项目的失败率持续低于某个阈值(例如 50%),则项目负责人将被解雇[13]。或者,在另一个抽象层面上,可以对整个资助机构进行审计,如果失败的资助项目数量低于 50%,则资助机构的负责人将被解雇。
- 研究机构的收购管道:人们常常感叹过去伟大的私人研究机构的消失(或巨大变化)——20 世纪 70 年代的 PARC 可能是最好的现代例子[14]。如果 20 世纪 70 年代的 PARC 如此出色,为什么 NSF 没有收购它?收购本应在他们的使命范围内,几乎可以肯定这是比 NSF 资金中位数使用更好的方式[15]。可能存在政治或官僚障碍,但如果是这样,问题在于政治和官僚主义,而不是这个想法的优点。如果公共(或慈善)对私人研究机构的收购变得普遍,可能会激励创建更多杰出的私人研究机构。
- 拉取移民项目:跨国迁移是一项令人畏惧且艰巨的任务,往往需要大量的专业知识。没有先验的理由说明某个有进取心的国家——比如爱沙尼亚,该国在移民政策上进行了多项创新实验——不能简单地识别出他们希望作为移民的优秀人才,并直接招募他们。想象一下,一位侍者出现在世界上每一位科学奥林匹克竞赛学生的家门口,手中握有一张前往爱沙尼亚的头等舱机票、一份预先批准的签证、一份在他们所选择的任何领域提供数年一流私人指导的邀请、一份津贴,以及作为同样非凡学生社区一部分的住房。观察这样一个社区长期会带来怎样的成果,将会非常有趣[16]。
- 开源研究所:类似于研究型大学,但其产出的理解形式并非研究论文,而是开源软件和开放协议(附带一系列相关成果,如原型、演示、开放数据,当然也包括论文)。基于这样一个论点:有时重要的新理解并不最适合用文字表达,而是通过代码或协议来体现。已有一些表面上相似的项目在运作,但据我们所知,没有一个真正改变了基础的政治经济结构——即人们建立声誉和职业生涯的方式——而这正是关键所在。
- 旅行科学家研究所:一艘环游世界的游艇,在每个港口接载和放下科学家。它将是一个移动版的斯坦福行为科学高级研究中心——一个既刺激又放松的地方,供科学家们休假、学习新领域,或者撰写他们一直想写的那本书。部分灵感来自克雷格·文特尔的海洋测序项目环球之旅。
- 长线赌注:购买针对极不可能但能改变世界的可能性的保险。证明 P ≠ NP。证明 P = NP。快速解决 NP 完全问题的构造性算法。冷核聚变。真正的超光速旅行。永动机。等等。结果越不可能,奖金就可以越大,即使保费很小[17]。成本低廉,成功可能性低,但若能解决此类问题,影响将极其深远[18]。
- 公共耻辱堂/反投资组合:风险投资公司 Bessemer Venture Partners 维护着一个公开的反投资组合,列出了他们曾有机会投资但最终错过的公司。其中包括苹果、谷歌、Facebook、特斯拉等众多极其成功的企业。每一次错失的投资机会都附有一个简短的故事,指出当时有机会投资但未行动的 Bessemer 合伙人,并(通常以诙谐有趣的方式)描述他们为何未能投资。全球的每个科学资助机构、每所大学以及每份科学期刊都应建立类似的反投资组合。或者,也可以由愿意承受一定非议的第三方构建一个集体的反投资组合。这种做法可能不会受欢迎[19],但如果执行得当,其价值将无可估量。
- 跨学科研究所:大多数关于跨学科的建议都显得不够热情。要真正重视跨学科,可以设立一个研究所,该所识别(例如)30 个不同的学科,然后聘请三个人在每对可能组合的学科交叉点上工作。这样总共只需 1305 人——虽然是一个大型项目,但在现代科学的规模上却微不足道。这将是一种有意引发多样性的策略。大多数学科配对可能产出不多,但很可能有少数组合会意外地带来重大发现。这些少数成功足以弥补其余的成本。一个更为经济的做法是从随机选定的学科对中抽样,这些学科可能来自一个更长的列表。
- 在实验室工作奖学金:在鼎盛时期,贝尔实验室和剑桥分子生物学实验室等机构的高级科学家通常亲自进行研究工作,或与 1-3 名其他人直接合作[20]。然而,现代大学往往强烈鼓励科学家担任管理角色,申请经费但在研究工作中放手。该奖学金将资助高级科学家几乎将所有时间用于实际进行科学研究。这里的论点是,对于某些类型的工作,重要的发现最有可能由对自然某一部分有深刻亲和力的高技能人士完成。换句话说,该论点认为,对于某些科学家来说,专注于专业知识会带来递增的回报,而不是传统科学家成为大型团队管理者模式中假设的递减回报。
- 资助者印刷机:一个拥有 100 亿美元资金的实体每年可以衍生出新的资助者;例如,它可以衍生出一个拥有约 5 亿美元资金的单一资助者,或许通过竞赛来寻找新资助者的运营者。或者,它可以衍生出更多数量的小型资助者。如果每个新资助者都有截然不同的理念,这可能会显著增加科学的结构多样性;并可能增加科学家可用的工作环境多样性。同样地,也可以为研究机构设立类似的印刷机,相应地调整细节。或许,还可以为这些机构设立日落条款,使它们不会永久占据发现生态系统中的组织空间;组织的长寿将必然通过人员和理念传递给未来的组织来实现,而非依赖组织的惯性。
- 资助者的兴奋指数:科学家们常常基于他们认为可获资助的项目来申请资金,而非他们最优秀的想法[21]。我们与一些科学家交谈过,他们告诉我们:「我知道我可以为许多时尚但无关紧要的项目获得资金,但我无法为我认为最重要的工作获得资助。」为什么资助者或匿名同行评审者应该比科学家更清楚如何运用他们的技能?这就像是一个爱管闲事的陌生人告诉父母他们育儿方式不对。许多资助者实际上赋予了这些陌生人否决权。部分解决这一问题的一个方法是,由一个独立机构抽样调查申请不同资助者的人,询问:「你对这份资助申请有多兴奋?」然后,他们可以通过比较兴奋分数来公开评价不同的资助者。这将给资助者施加压力,促使他们资助申请者真正感兴趣的工作,并在申请大多流于形式时提出质疑。
考虑到这些例子,我们可以重新阐述文章的基本问题。假设,例如,第一个想法「基于方差的资助」得到了认真的试验,可能经过多轮调试和改进。假设发现,当实施得当,它比许多资助者目前使用的基于委员会的同行评审方法有决定性的改进。那么,它会得到广泛采用吗?还是其他机构会忽视或抵制它?在一个健康、充满活力的发现生态系统中,它会广泛传播,在适当的时候取代较差的方法。相比之下,在一个静态的生态系统中,即使早期试验非常成功,其他机构也会反应迟缓,或抵制变革。他们会纠结于这种方法是否来自「正确」的发起者,或者是否足够有声望。在一个健康的发现生态系统中,改进的想法可以来自任何地方。
在本文的早期草稿中,我们对是否列出上述具体想法清单犹豫不决。我们担心这会令读者固守于「这些是 Nielsen 和 Qiu 所主张的变革」。然而,个别项目并非重点;实际上,我们将在本文后续部分提出更多(有时更为深刻的)构想。关键在于,一个繁荣的生态系统能够迅速孕育并认真试验大量创意,其中许多想法远比上述所列更具想象力。这些创意中的佼佼者将经过严格测试、迭代优化、问题排查,并扩大规模以提升整个发现生态系统的效能。事实上,若真正大胆的设想得以试验,它们将包含许多我们最初可能不赞同的观点,但有时支持它们的证据会如此有力,以至于我们不得不改变初衷。
如上所述,本文的重点是发现生态系统如何改进。这一重点的部分动机在于相信,有前景的新社会过程的设计空间是广阔的:

我们不会证明这一信念,但会尝试使其显得合理。在文章的第一部分,我们将探讨探索这一元科学设计空间的启发式方法。这些启发式方法源自于人类如何做出发现的合理模型。事实上,科学的所有社会过程都反映并基于这些模型——通常是隐含或非正式的民间理论——关于发现是如何发生的。薄弱的元科学理念导致薄弱的社会过程;更强的元科学理念则催生更强的过程。只要我们能够改进我们的元科学理论,就能改善人类做出发现的方式。发展这种理解的一个好方法是勇敢地在上述设计空间中探索,理解哪些理念有效,哪些无效,以及原因何在。
在本介绍中,我们使用了多种不同但相关的术语,讨论了改变科学的社会过程;改变科学文化;改变科学机构;改变发现生态系统;等等。从现在开始,我们将使用「科学的社会过程」作为一个非正式的统称。我们指的是科学中广泛使用的制度实践、激励措施、规范(等等)。因此,当我们谈论科学的社会过程的改变时,我们指的是诸如同行评审、招聘实践、资助者如何应对风险等方面的变化,以及更广泛的概念,如上述提到的「拉动移民」、「资助者的印刷机」或「反投资组合」等想法。遗憾的是,「科学的社会过程」这个短语有些笨拙。但拥有这样一个统称仍然非常有用。我们将在有更具体需求时使用其他术语。
如前所述,本文属于元科学领域的一篇入门之作。这一仍在兴起的领域与许多成熟学科相互重叠并借鉴,包括科学哲学、科学史、科学社会学,以及科学资助经济学、科学学、科学政策等较新的领域。尽管我们借鉴了所有这些领域,但我们的关注点存在显著差异。与科学哲学不同,我们更关注社会过程而非方法论。两者虽相互交织,但这是一种程度而非本质上的差异,却依然真实存在。当然,科学社会学和科学学等领域确实聚焦于社会过程,但其重点主要是描述性的,而非如我们工作中所讨论的富有想象力的设计与积极干预。科学政策是个例外,它以设计与干预为核心目标。然而,在科学政策领域,干预往往局限于现有权力结构内可行的范围内。我们将更多关注原则上的先验问题,并推动去中心化的变革,即可能发生在现有权力结构之外的变革。 基于所有这些原因,我们认为这篇文章仅仅是元科学的一部分。
文章中未讨论的一个因素是元科学与影响科学未来的几个外部因素(人工智能、中国和印度的崛起、太空殖民以及智能增强)之间的关系。我们在文章的附录中简要讨论了这些内容。文章正文的重点更多在于科学内部。
文章的基础假设是,改进的社会过程能够从根本上改变并提升科学。我们交谈过的大多数科学家至少同意这一假设的较弱形式。例如,许多人强烈支持元科学原则,如:科学家探究自由的重要性;或者,如果局外人能够基于证据而非其资历推翻既定理论,这将增强科学。为了使科学良好运作,这些理念必须在科学社会过程的设计中得到体现,即便不够完美。如前所述,我们的社会过程(以及我们的制度)的质量,取决于它们所体现的元科学理念的质量。
但我们在本文中的假设远强于那种弱形式。重申一下:我们相信改进的社会过程能够彻底改变并提升科学。这一点并非显而易见。与我们交谈的一些科学家对此想法感到兴奋,并认同新的社会过程可能具有变革性。另一些人则强烈反对,告诉我们广泛、生态系统层面的社会变化对实际科学几乎没有实质性影响。事实上,几位著名科学家用几乎相同的话向我们表达了这一点:「重要的是资助优秀的人做优秀的工作」。还有几位表达了类似的意思:「我欣赏你的乐观,但系统从未真正变得更好,只是越来越多的官僚主义和『问责制』」。这些人可能是对的。但确定这一点的唯一方法是积极探讨这个问题:如果真的有等待被发现、具有真正变革性的社会过程呢?
我们暂且基于这一假设继续探讨,并在文章末尾重新审视其真实性。此刻,让我们仅讲述法律学者兼计算机科学家尼克·萨博(Nick Szabo)[22]的一段轶事。萨博描述了在文艺复兴早期,探索海洋是一项极其冒险的事业。船只可能搁浅,或因风暴严重偏离航线,有时整船船员、船只及货物都会损失殆尽。探险活动在各个环节都充满风险,从船员个人的健康与生计,到若船只搁浅或严重受损将面临破产的资助者。然而,萨博指出,14 世纪时,热那亚商人发明了海上保险,这一风险格局发生了显著变化:只需支付适度的保费,资助探险的人便不会因船只受损而遭受损失。这一机制分散了风险,使得探险对部分(尽管并非全部[23])参与者而言风险大大降低。资金体系的这一变革助力开启了一个探索、发现与繁荣的新时代。
很容易想象一个经验丰富的热那亚船长在被问及如何改进航运时,会说「只需要好船,配上好水手」。这就像我们的科学家朋友告诉我们「只需资助优秀的人做优秀的工作」一样。这其中包含很大的真理成分,但与从根本上改善情况的系统级理念并不矛盾。这些经验丰富的科学家是对的,但仅限于有限的视角。研究机构确实需要狂热地资助拥有好项目的优秀人才;同时,它们也可以进行系统级的变革,这些变革会产生更深远的影响。本文正是关于这类系统级变革的。
换句话说:我们认为,我们那些经验丰富的科学家们对系统和社会过程如何强烈地塑造创造性工作视而不见。这并不是因为他们缺乏想象力。通常,这是因为他们在职业生涯中所见到的系统变革大多是官僚机构为了让自己更满意(而往往让其他人更不满意),增加了繁文缛节和对问责的要求。自然,这些科学家对改进的前景持怀疑态度。我们希望提出一个令人信服的观点,即更多非传统的变革是可能的,从而形成一个截然不同且更好的发现系统。
这种批评的一个变体是,当前科学的社会过程已经产生了许多惊人的成果。这确实没错!与最优秀的科学家交谈是一种令人谦卑的经历:他们所能做到的确实令人惊叹。你会想:「就是这样,这些非凡的人类,被人类利用到接近他们的全部能力。」我们支持这样的人是人类的一项伟大成就。而且,询问我们为什么还需要其他东西是合理的。为什么不直接扩大规模呢?确实,有时与这样的人交谈时,我们会遇到友好或怀疑的困惑。对他们和他们的朋友来说,当前的系统运作良好,他们看不到需要任何不同的东西。但是,也许有非常不同类型的科学家(和科学工作)也能在科学中取得惊人的成就,也许当前的系统在不知不觉中阻碍了这些成就,因为他们的个性类型在那个系统中无法茁壮成长?也许如果有更多的结构多样性在科学的社会过程中,他们和他们的科学方法会茁壮成长? 这是我们稍后将回到的一个中心点。
乍看之下,这篇文章似乎属于那种蓬勃发展的体裁——「科学出了什么问题以及如何修复它?」这种体裁在社交媒体上、科学家之间的对话中,以及科学和主流媒体的文章中都有很好的体现。「以下是同行评审(或资助机构、或大学、或等等)存在的问题——以及如何解决它们。」确实,这种体裁并不新鲜:你可以找到几十年前甚至几个世纪前关于这些问题的讨论。每一代人都重新面对这些问题,并提出新的解决方案。但尽管不乏宏大的希望和计划,进展往往缓慢。
我们的观点在一个关键方面有所不同:我们并不主张单一的解决方案。我们相信,机会远比这广阔。我们所期望的,是一个充满活力的生态系统,其中的人们拥有极具想象力和洞察力的新社会过程构想;并且这些构想能够得到测试,最优者得以推广。我们将通过实例部分展示,修复同行评审(或资助机构、大学等)存在多种可能的途径。与其坚信我们已经掌握了答案,只需实施,不如发展一个能够迅速自我优化流程的发现生态系统。根本性的问题是:科学中的社会过程如何改变?是否存在关于这种变化的一般理论?能否加速并改善这一变化?这一主题并不像「如何修复资助机构」或「如何改革大学」那样流行。但我们认为,这是人类发现方式中的一个基本问题,是元科学的核心议题,也是科学[24]的核心所在。
最后需要说明的是,我们在整篇文章中使用了非正式的语言,这可能会让一些读者误以为这是新闻报道。然而,尽管它部分上是一种综合,但这并非其主要意图。相反,它旨在作为一种创造性的研究贡献:对元科学的目的和潜力以及它如何改变科学的广阔视野。我们为元科学的许多关键要素引入了术语和简单模型,并勾勒了许多核心问题。我们的论点不可避免地有时会使用推测性和不完整的推理。我们将借鉴许多现有领域,但我们的工作主要不是旨在为这些领域做出贡献。相反,它旨在勾勒出元科学这一新兴原领域的一部分,以帮助它逐步发展成为一个成熟的领域[25]。
第一部分:探索元科学设计空间
元科学的一个概念是,它关乎科学的微调,对同行评审或资助等社会过程进行渐进式调整。但我们以不同的方式构想元科学,相信截然不同且远胜一筹的社会过程是可能的,并且元科学的设计空间广阔且大多未被探索:

确实,我们认为设计空间如此之大,探索它至少需要数十年甚至数百年。尽管如此,在第一部分中,我们希望唤起对那宏大尺度的某种感知。我们将探索这一空间,最初聚焦于一些可由富有想象力的资助者单方面试验的简单项目构想。虽然这一初步关注点有限,但它能用以阐释生成性设计启发法,这些方法有助于以富有想象力的方式进行探索。随后,我们将拓宽视野。在此过程中,我们偶尔会遇到一些广为人知的想法——比如当前流行的资助彩票理念,或是应资助人而非项目的观点。但为了使讨论保持新颖,我们也会提及那些鲜少被讨论或据我们所知尚属新颖的想法。
资助者作为检测者与预测者:探索元科学设计空间的一种启发式方法
让我们从一个简单的启发式方法开始,探索设计空间。我们称之为资助者作为检测器和预测器模型[26],简称检测器-预测器模型。顾名思义,这是一个由两部分组成的模型。在模型的一部分中,我们将科学资助者视为一种检测器或传感器[27],一种集体的人类工具,旨在定位智力暗物质。也就是说,它旨在定位发现生态系统中存在但被现有资助者忽视的重要思想或信号。例如,世纪资助计划旨在引发一类以前不可见的智力暗物质——那些应该持续一个世纪或更长时间的项目构想。这样的项目可能有很多伟大的想法;也可能寥寥无几。除非我们进行坚决的搜索,否则我们无从知晓!在模型的这一部分中,关键问题包括:系统中存在哪些类型的重要信号,但目前被忽视?是否有信息被系统地隐藏;如果有,如何引出这些信息?我们可以开发哪些新机制来定位和放大信号[28]? 具体而言:科学家群体所掌握的重要信息有哪些,这些信息对资助者来说目前要么不可见,要么不够显眼?我们如何才能让这些信息浮出水面?
在检测器-预测器模型的第二部分中,资助者被视为预测者,试图预测未来的结果。特别是,他们基于当前不完整的信息,运用某种推理过程来对不确定的未来做出决策。(这是资助发现中需要解决的根本问题。)例如,高方差资助的理念基于对决策所用推理方法的一个简单改变:不是使用典型或平均分数,而是利用分数的方差来帮助决定资助哪些提案。在检测器-预测器模型的这一部分,关键问题包括:我们可能收集哪些信息?可能采用哪些对冲、聚合和间接策略?哪里存在不对称的机会?或独特边际影响的机会?可能的合同设计有哪些?风险在哪里,如何转移和转化?
我们在引言中提出的许多建议可以通过检测器-预测器模型的视角来理解。我们已经提到了世纪资助计划和高方差资助,但许多其他建议也可以这样看待。例如:失败审计是关于观察推理模型的结果,以确定它是否达到了某些期望的终点,并使用激励措施来改变所使用的模型。或者:拉动移民计划是关于揭示以前不可见的知识暗物质。许多计划都涉及模型的两个部分:正如已经提到的,高方差资助改变了预测方法,但也可能会引发不同类型的资助申请,鼓励有风险想法的人申请。从这个意义上说,你检测到的内容和你的预测方式是交织在一起的。更广泛地说:简单地回顾前面的例子,看看模型如何应用(或不应用),是令人兴奋的。
检测器-预测器模型并非旨在普遍适用,也不作为描述性模型力求字面准确。相反,它是一种生成式设计启发法,旨在帮助产生合理且有趣的节目构想。通过运用这一模型,你可以轻松生成源源不断的潜在节目方案。为了说明这一点,让我们基于将资助者视为搜寻知识暗物质的检测器这一视角,再描述四个节目构想。
- 25 岁前设立捐赠教授职位:历史上许多伟大的科学家在非常年轻时就做出了关键发现。例如,牛顿、达尔文和爱因斯坦等巨匠便是如此。近年来也是如此:想想约书亚·莱德伯格,21 岁时发现了细菌接合,或布莱恩·约瑟夫森,22 岁时发现了超导体之间的隧道电流。令人担忧的是,近年来科学家能够建立独立研究项目的年龄大幅增加[29]。通常,20 岁出头开始研究的人直到 30 多岁或 40 多岁才能建立独立项目(!)相反,他们要么在别人的研究项目中工作,要么离开科学界。该捐赠计划的论点是,如果我们给予一些年轻人完全的独立性以追随他们的想法,将释放潜在的发现潜力。为此,在少数杰出机构(如哈佛和剑桥)为不超过 25 岁的有前途的科学家设立捐赠教授职位(及相关项目支持)。即使只有少数人能重现莱德伯格或约瑟夫森的成功,这样的计划也将非常值得[30]。
- 聚焦研究组织(FROs):这些由科学家和工程师组成的组织于 2021 年首次试行,它们「需要学术界无法达到的协调工程或系统构建水平」,通常耗资数千万美元[31] 。它们旨在生产定义明确的工具、技术或科学数据集。例子包括:E11 生物,开发工具使绘制小鼠大脑图谱变得相对容易且成本低廉,直至单个突触水平;以及 Cultivarium——合成生物学的大部分工作集中在少数模式生物上,但 Cultivarium 正在开发工具,使合成生物学在更广泛的生物体中成为常规。乍一看,FROs 似乎类似于 LIGO、LHC 和人类基因组计划等努力,每个项目也都涉及大规模的科学和工程,以追求明确的目标。但在过去,这些努力是根据特定需求构思和资助的。FROs 的创新之处在于,它们是一种可扩展的方式来激发和创建此类实体;其基本论点是,这种可扩展的手段将揭示许多目前潜在的、有价值的 FROs。 它(再次)是一种机制,用于搜寻并激活某种智力暗物质[32]。
- 准学术研究员:一种为在学术界外从事独立研究工作的人设立的奖学金。其核心理念是,有许多人拥有极其罕见的技能组合,这些技能在学术界难以找到,但可能促成重要发现。想想像简·雅各布斯、朱迪思·里奇·哈里斯和罗伯特·巴拉德这样的人。事实上,如果我们回溯更久远的时间,想想年轻的阿尔伯特·爱因斯坦在瑞士专利局的日子。再次强调:这是在为一类被低估的智力暗物质构建探测器,然后资助那些看起来最有前途的项目[33]。
- 跨学科研究奖学金:旨在为杰出科学家轻松转换研究领域提供便利。我们遇到过许多科学家,他们在当前研究领域获取资金并无困难,但他们表示更希望投身于其他领域。这颇为奇怪:他们拥有资金去从事那些自己并不十分热衷的项目,却无法涉足自认为更有前景的领域。有时,他们怀揣某种特殊洞见或优势,认为这能在心仪的新领域中助其一臂之力;另一些人则感到在当前领域已贡献殆尽,难有突破。无论原因为何,资助方目前大多忽视了这些信息:这再次成为了智力暗物质。揭示并据此采取行动,将有助于人们更好地发挥其才能。若大规模实施,此举将促使那些虽已确立但日渐衰落的领域自然消亡。同时,它还能揭示出有价值的汇总信息:若人们出乎意料地涌入看似平淡无奇的领域,或离开高地位领域,这无疑是一个显著的信号,表明某些变化正在悄然发生。 许多类似的小规模项目已经完成;如果每年提供 5 万笔这样的资助,将会非常有趣,这将为科学领域注入大量的学科流动性[34]。
正如开篇部分提出的项目构想一样,我们并不认为其中任何一个项目构想会彻底改变科学。事实上,我们甚至不声称任何一个特定的项目会运作良好;有些可能效果相当差(尽管我们不确定是哪些!)一个健康的发现系统应该尝试大量的想法,包括许多失败的想法;这才是尝试冒险的意义所在。我们确实认为值得尝试上述所有想法,以及更多。进行这样的试验将有助于回答各种各样的问题,比如:学科转换的需求有多大?由此产生的科学家在学科间的流动情况如何?是什么决定了这些流动?年轻人作为首席研究员的表现如何?他们在探索方向上是否存在系统性差异?等等,一系列问题、部分答案和有用数据。从这个意义上说,即使是「失败」的项目也是成功的:它们将为我们理解元科学贡献关键知识。而如果其中一个项目效果显著,它可以被扩大规模,甚至可能开始改变科学文化。
现有资助者已经在某种程度上改变了他们的「探测器」:他们积极寻找新的研究子领域进行资助。例如,考虑 NIH 如何系统地扩展其专家小组领域,或者 DARPA 如何寻找技术空白。但「智力暗物质」的概念远不止于此[35]。统一的核心问题是:科学家群体所知道的、重要但目前对资助者来说要么不可见(或不够可见)的是什么?例如,FROs 主要不是关于扩大被考虑的领域范围;而是关于可能被攻击的科学问题结构的变化。你如何知道这种智力暗物质存在?你无法确定。但像 LIGO、LHC 和人类基因组项目这样的定制先前项目的成功至少表明值得寻找。同样,学科转换奖学金并不是关于扩大被考虑的领域范围,而是关于利用科学家对自己比较优势的了解。 再次,这一点由著名的例子所暗示:弗朗西斯·克里克从物理学转向分子生物学;爱德华·威滕从数学转向物理学。诸如此类。如果你与个别科学家交谈,并理解阻碍这种转换的障碍,你就会意识到智力暗物质的存在,而一个可扩展的学科转换奖学金项目是自然而然的。这种智力暗物质在科学的历史和当前实践中比比皆是。通过寻找具体的例子,有可能识别出更多类似上述项目的计划[36]。
刚才描述的程序是通过将资助者视为检测器来生成的。如果我们转而将资助者视为预测者,尝试开发新的推理程序来做出决策呢?同样,这也有无数种实现方式。以下是基于改变预测方法的三个程序建议:
- 引出秘密论文:有时,科学家会承担一个项目,因为他们拥有一些特别的秘密,一些他们知道而其他人并未完全理解的东西,这给了他们独特的竞争优势。费曼曾谈到必须「认为我有某种内部渠道……我有一些特殊的数学技巧,我将使用这些技巧,而[我的竞争对手]没有,或者我有某种天赋」[37] 。但如果你是一个拥有这种优势的科学家,在资金申请方面就会陷入困境。你不想在同行评审的资助申请中透露这一特殊优势:你可能会向竞争对手透露你最好的想法!因此:标准的同行评审程序有时会压制对决策最有用的信息。这是一个逆向的柠檬市场[38],一种不对称知识的形式,其中反常的激励抑制了申请人揭示其想法有多好。当然,一些项目的竞争优势不那么容易被复制(例如,特殊设备或人员)。但并非所有项目都是如此。资助申请可以有一个简短的单独部分,要求科学家描述他们所拥有的任何秘密竞争优势。 资助方承诺,这份秘密论文仅由(专业而非同行)项目经理审阅。该秘密论文随后可作为决策的参考依据;有时,它将成为决定性因素。
- 年轻项目经理的配额:假设要求 50% 的项目经理在 28 岁之前任命,并且只允许任职五年。也许可以在 27 岁时向所有赫兹或 NSF 研究生研究员提供项目经理职位?这将如何改变决策的性质?传统观点认为,做出好的决策需要年龄和经验。也许这种观点是正确的。但这里的论点是,年轻的项目经理会做出与现任者系统不同的决策,这是一种有效的推理方法的变化,并且可能相对于当前情况有一些优势。在资助机构的其他层级尝试类似的想法也很有趣,也许是在整体 CEO 或总监的层级。与现在大多数资助机构中常见的 50 岁、60 岁甚至 70 岁的总监相比,25 岁的总监会做出哪些不同的决策?
- 资助者的「诺贝尔奖」:重要发现的早期阶段往往显得怪异且难以理解:人们以边缘或超越传统智慧的方式探索基本理念。由于这类项目通常看起来并不像稳赚不赔的买卖,资助者有强烈的动机推迟支持——恰恰在最为需要之时——以避免显得愚蠢。这一点对于个体项目管理者尤为明显,他们自然倾向于避开那些日后可能显得愚蠢或轻率的资助对象。将这一情况与风险投资领域形成鲜明对比,后者在早期阶段有强烈的资助动机,因为不确定性使得股票价格低廉;最终结果是,若项目失败,看起来愚蠢的风险更大,但如果成功,则可能获得巨大的意外之财[39]。思考如何奖励那些率先押上自身声誉支持此类项目的科学资助者——尤其是个人——是件有趣的事。这可以通过多种方式实现:一种自然的方式是设立一个或多个奖项,公开表彰这些勇敢的资助者。
我们可以更深入地探讨检测器-预测器模型的生成能力。每个元素都可以无限延伸,产生更多的项目构想。但这并非本文的目的。相反,该模型在此作为一个生成性设计启发法的例子,用于探索元科学设计空间的一小部分。现在,让我们简要讨论其他几种类似的设计启发法。每一种都提供了探索设计空间的不同方式,同时展示了元科学作为一种富有想象力的设计实践的更广泛理念。
元科学作为一种富有想象力的设计实践
检测器与预测器模型提出了一个问题:智力暗物质存在于何处,以及如何检测并放大它?其核心论点是存在多种此类暗物质,通过识别新类型,我们可以激活未被开发的潜在发现能力。现在,让我们简要讨论激发探索设计空间不同方式的另外四个元科学问题。每个问题都需要一篇论文或一本书来深入探讨,并能催生出数十乃至数百个程序构想,每个构想都需详尽阐述[40]。但我们相信,这些简短的描述能够激发可能性,并帮助传达关于何处蕴藏着发现潜力的不同论点。
- 如何将新领域的创建速度提高十倍?物理学家保罗·狄拉克曾说过,20 世纪 20 年代量子力学被发现时,是一个「任何二流物理学家都能做出一流工作」的非常容易的时期[41]。确实,历史表明新科学领域的早期往往是黄金时代,关于世界的基本问题能够迅速而轻松地得到解答。相比之下,后来的工作往往需要付出更多努力才能在更渐进的问题上取得进展。正如狄拉克在量子力学发现几十年后所说:「自那以后再也没有如此辉煌的时期了。现在,即使是一流物理学家也很难做出二流的工作。」我们认为,科学在领域形成方面存在严重的瓶颈。特别是,我们认为当前科学中的社会过程旨在支持现有领域的工作,但强烈抑制了对新领域创建至关重要的研究。哪些项目能显著提高富有成效的新领域的产生速度?(同时如何避免创建由金钱而非深刻思想驱动的无果而终的「波将金」领域?)此类项目将支持以下特点的想法:处于非常早期的阶段[42];通过传统流程难以辨识;超出标准学科范畴;以及来自非传统来源。开发此类项目意味着理解一个新领域正在萌芽的早期信号,并设计出能够检测和支持这些信号的方法。我们相信,在现有的资助项目中,许多这样的信号被主动排除在外,而选择支持它们将释放出巨大的潜在发现潜力。
- 如何大幅增加对高风险、高回报项目的支持?这一观点基于科学家们中普遍(尽管并非全部)认同的理念,即在科学领域,一个巨大的机遇在于加大对高风险、高回报研究的支持[43]。正如我们之前提到的,资助方常在宣传手册中提及「高风险、高回报」研究,但这往往只是空谈和研究表演,而非真正的风险。要开发支持真正风险的项目,意味着要建立将资源分配与风险挂钩的承诺机制。我们已经看到一些有助于此的设计思路:衡量风险、通过保险和对冲等概念进行风险的打包与分散;改善科学家的备选方案(众多降低风险的可能手段之一);增加多样性与异议;强化对识别独特竞争优势的论文的压力。这些想法是在我们发展其他理念时偶然产生的。若专门为此目的深入探索,它们可以进一步发展,并引入其他基础要素。 值得注意的是,现有的科学资助者似乎对这些想法的追求缺乏紧迫感:例如,十多年来,我们一直听到资助者谈论「采取组合方法」。据我们所知,没有一个资助者真正超越了基本上无力的非正式启发式方法。事实上,他们甚至没有系统地使用最简单的工具——如美元成本平均法、常规组合再平衡、保险或对冲,更不用说更复杂的概念了。金融市场中的机构投资者认真对待风险,并经常使用这些概念。科学资助者可以而且应该发展类似的概念。风险是可以设计的,与回报的关系也可以被理解[44]。
- 如何解决假设检验中的问题?(可重复性运动)几十年来,假设检验在科学领域被广泛应用,并在许多领域中扮演着核心角色。人们几乎同样早就知道,它容易受到可疑研究实践的影响:p 值操纵、文件抽屉效应以及其他许多问题。元研究者约翰·约安尼迪斯(John Ioannidis)利用这一点提出,「大多数已发表的研究发现都是错误的」[45]。这一粗略的主张认为,许多领域中的大量结果不过是统计噪音。在 2010 年代,一小群人认真开发了一套大大改进的研究实践,旨在使这些领域更加可靠。这项工作仍在进行中,但初步结果令人鼓舞,我们将在本文的第二部分进一步讨论这项工作。其基本论点是,这些改变后的实践为许多领域奠定了更坚实的基础,从而实现了知识的可靠积累。这听起来可能有些枯燥,但解析起来近乎于:这意味着这些领域可以开始实现可靠、累积的进步。而这是一个巨大的、变革性的变化[46]。
- 如何确保科学家公开分享成果,以便他人能在其基础上继续研究?(现代开放科学运动[47])在 17 世纪,科学家们常常将他们的发现完全保密,或者仅以字谜形式「发表」记录,这些字谜日后可被破解以确立对竞争对手的优先权。亨利·奥尔登堡等早期元科学家意识到,如果科学家公开分享他们的发现,科学和人类将受益匪浅。他们努力建立了科学期刊系统,这是人类的一种集体长期记忆,使科学家能够在彼此成果的基础上继续研究。现代计算机网络极大地扩展了开放科学的可能性,使科学家能够以前所未有的方式在彼此的想法、数据和代码基础上进行构建。这促使科学家的工作方式,无论是个人还是集体,都在持续重构中。
还有许多其他可能的问题可以提出,其他生成启发式方法可以探索设计空间。更简洁地说:(1)在生物学中,进化创新往往紧随灾难之后;市场中也存在这种情况;如果我们暂时但大幅减少(然后增加)对诸如 NSF 等实体的资助,是否会导致发现的爆炸性增长?我们并不期望这个建议会受欢迎,但这并不意味着它是错误的。(2)我们能否利用加密经济学从根本上改善科学的政治经济,在个人激励与集体社会利益之间创造更强的对齐[48]?(3)我们能否通过减少拨款间接费用来多样化探索并释放创造力,因为间接费用激励大学追随拨款机构的潮流,因此是一种强大的集中力量[49]?
这些问题与「智力暗物质存在于何处,以及如何探测和放大它?」不同。但每一个都表达了不同的设计启发法,帮助我们探索元科学设计空间的不同部分[50]。正如我们之前所指出的,这些启发法的价值不在于它们的描述准确性或普遍性[51],而在于它们帮助生成优秀新设计想法的能力。每一个都基于一个关于何处存在发现潜力的合理广泛论点,并勾勒出释放该潜力的机制。潜力越大且激活得越好,变革性就越强。
这些启发法背后是一种将元科学视为富有想象力的设计实践的观点。这一观点与自然科学中普遍存在的观点大相径庭,后者通常更关注于更深入地理解现有系统或其自然变化[52][53]。相比之下,设计则是关于发明全新的对象和行动类型,这些在自然界中并不明显存在。以热那亚海上保险为例,它并非改变船只建造方式或船员培训方法,而是引入了一套全新的、相互关联的抽象概念——保险费、对手方、风险分散、保险赔付。这些都是美妙且非显而易见的想法,无一自然存在于世间。相反,它们是通过深刻的设计想象力被创造出来的。尽管是「虚构」的,它们却彻底改变了人类与世界的关系。这正是设计想象力的特征。对于热那亚人来说,鉴于风险,金融家「天生」不愿资助探险活动,这似乎是世界的固有特征。然而,设计揭示了这是一种幻觉,是可以被根本改变的。
我们提及这一点,是因为关于元科学的讨论往往忽视了富有想象力的设计。我们常遇到一些人,他们认为元科学意味着对现有社会过程进行相对较小的调整,比如同行评审、招聘、资助等方面。这些微调确实有价值,也能教会我们很多。但我们相信,富有想象力的设计可以成为元科学的核心。这意味着为科学的社会过程发明全新的基础构件。它意味着发展巨大的设计想象力、洞察力以及探索元科学设计空间的新思路。我们相信,在这个设计空间中,最重要且强大的社会基础构件仍有待发现。
要恰如其分地阐述这种富有想象力的设计理念颇具挑战。这部分是因为真正富有想象力的设计本就难以实现。我们所描述的那些个别项目构想,其想象力水平也不过是相当有限的。少数构想——如失败审计、终身教职保险或世纪赠款计划——确实包含了较为引人注目的新颖设计理念(并非全出自我们之手!)。但它们还不及海上保险在其时代那般富有想象力。尽管如此,我们希望你能将这些个别项目构想视为点彩画中的点,以此唤起将元科学视为一种设计实践的观念。我们深信,比我们在此所提及的任何构想更为深刻、更具想象力的想法都是可能的。发展此类构想,正是元科学所面临的挑战与机遇的一部分。
没有理由期望科学家擅长这种设计。科学家是发现系统的使用者,而非(大部分情况下)设计者。他们无需深入了解如何改进它,就像开车的人不必懂得如何设计和制造一辆好车一样。优秀的驾驶员会注意到车辆的问题,并可能对汽车有重要见解。但这并不意味着他们能理解设计中的问题根源、如何修复或如何设计出更好、更新的汽车。仅仅因为某人擅长科学,并不意味着他们具备优秀设计师的技能。更糟的是,他们有时确信自己知道,并会忽视或轻视那些在这些方面实际上更有洞察力的人。在他们看来,这些都是「软技能」,而非「真正的科学知识」,因此,局外人怎么可能有建设性的意见呢?相反,仅仅因为某人对科学的社会过程有坚定的信念,并不意味着他们真的有很多洞察力。事实上,我们承认在这一点上我们自己也充满疑虑。 在这个问题上,人类仍在努力区分那些有洞察力的人和那些仅仅对科学应该如何[54]有强烈信念的人。
我们一直在将元科学的概念发展为一种富有想象力的设计实践。在第二部分中,我们将论证这是元科学的三大主要组成部分之一。另外两个组成部分是:(1) 元科学作为一门创业学科,实际试验并推广新的社会过程;(2) 元科学作为一个研究领域,旨在深化我们对科学社会过程的理解,部分作为评估其对发现影响的工具。要使元科学取得成功,这三个组成部分必须协同工作。
关于扩展规模的观点值得进一步阐述。我们目前的讨论仅限于今天可以单方面进行的适度试点试验。如果这些想法被广泛推广,它们将比试验更深刻地改变科学:它们将改变科学文化,即科学家们习以为常的环境和背景工作假设。
作为一个具体的例子,假设支持更高风险工作的项目被广泛推广。如果做得好,文化将会改变,科学家们追求极其雄心勃勃和高风险的项目将成为常态。如果推进得足够远,一些科学家可能会开始担心他们的计划不够冒险,而不是过于冒险[55]。这种文化上的变化将产生许多后续影响:科学家们如何选择工作内容;他们在职业生涯中如何发展和变化;选择进入并留在科学领域的人的性格特征;等等。我们认为,毫不夸张地说,这样的变化将彻底改变科学文化。而且,这将是一种质的不同于仅仅是一个试验项目的变化。
这只是一个例子。还可以举出许多其他例子。但我们相信更广泛的要点是明确的:(1) 大规模文化转变在性质上不同于单方面的试点试验,即使文化转变「仅仅」是使试验的某种理念广泛传播;(2) 上述每个试验理念作为更广泛文化变革的一部分,都有其自然的延伸。
总结并展望未来,在即将呈现的愿景中,元科学不仅仅是对科学的研究,描述性地理解正在发生的事情。它的一个基本目标是干预以改变科学。而且,元科学不仅涉及渐进式的干预。它还涉及极具想象力的设计,为科学中的社会过程构想新的基本元素。这就是我们说元科学是一门富有想象力的设计学科时的含义。此外,元科学不仅仅是理论性的。也就是说,它不仅仅是在传统学术模式下的新理解(和论文)。它需要建立新的组织、新的项目、新的工具和新的系统。只有通过这种创业式的建设,才能测试元科学的想法,并增进我们的理解。这种改进本身就有价值,同时也提高了人们未来能够构建的内容。与此同时,仅仅建立局部系统是不够的。元科学还需要从(相对)小规模的试验转向科学中更广泛的文化变革。这是文章第二部分的主要主题。
第二部分:科学社会过程的去中心化改进
抑制去中心化改进的瓶颈
想象你是一名研究生,拥有一个改进科学资助方式的绝妙想法。在你所认为存在缺陷的学术体系下感到不满,你学习了科学史和替代资助模式。你与许多科学家交谈,并深入探讨资源分配的其他模式——涵盖金融、组织心理学和人类学等领域。你提出并摒弃了许多想法;随着时间的推移,你的想法变得更加富有想象力和洞察力。你逐渐形成了自己认为能够创建一个新资助机构的见解,这个机构如果有足够的时间和资源,将大大优于现状。你筹集了试点资金,并开始运作。你发现了一些想法中的误解,并进一步加以改进。假设你做到了这一切,而你的想法确实比现有的资助者(如 NSF 和 NIH)对科学更有利。你的资助机构会迅速成长为比 NSF 和 NIH 更大、更有影响力的存在吗?在现代,这种情况并未发生。 也未曾有过这样的局外人迅速将研究机构发展至超越哈佛、剑桥及其他老牌机构的规模。乍看之下,Janelia 和 Altos 等例子似乎符合,实则不然:它们的壮大并非因为更优秀,而是预先获得了富裕捐赠者的资助。事实上,此类成长的可能性几乎显得荒谬。车库乐队式的研究机构不会成长为全球领先的[56]。但我们将论证,这种变革在科学领域既极为可取,又具有潜在的可行性。
现代科学的一大优势在于,科学思想中确实经常发生类似现象:局外人或权力较小的人(如研究生)用更好的想法取代既定观念。著名例子比比皆是。想想年轻且默默无闻的弗朗西斯·克里克、詹姆斯·沃森和罗莎琳德·富兰克林在解码 DNA 结构的竞赛中如何战胜了莱纳斯·鲍林。鲍林是当时最著名的化学家,他率先宣布了自己(错误的!)DNA 结构;克里克、沃森和富兰克林则是斗志昂扬的局外人,看似已被抢先一步。但他们是对的,鲍林错了,他们的结构[57]几乎立即被科学界接受,包括鲍林本人(!)再想想 22 岁的布莱恩·约瑟夫森,他在超导方面的工作被约翰·巴丁在一篇论文中公开反驳,而巴丁是唯一一位两次获得诺贝尔物理学奖的人。但约瑟夫森是对的,巴丁错了,物理学界迅速站在了约瑟夫森一边。 或许最著名的例子莫过于:26 岁的阿尔伯特·爱因斯坦,一位专利局职员,提出了关于空间、时间、质量和能量的新概念。几乎在瞬间,他的思想战胜了旧有的观念。
这些例子被推崇备至。但在一个远不那么崇高的层面上,类似的事情却屡见不鲜。研究生在攻读博士学位期间能做的最好的事情之一,就是令人信服地展示他们前辈中某位名人的著名想法是不完整的(通常这是「错误」的一种委婉说法)或需要扩展。这就是职业生涯的塑造方式,也是科学思想得以更新和改进的途径。虽然这一过程常常充满坎坷,但这种科学思想的替换或改进确实司空见惯。它是科学的基础,发生得如此频繁,以至于人们很容易将其视为理所当然。但这一切之所以能够发生,是因为非凡的机构确保了来自相对外行人的好想法能够得到公正的倾听,即使它们与既定智慧相悖[58]。至少从弗朗西斯·培根的时代起,人们就已经理解了这种思想去中心化变革的价值,他主张实验的首要地位,反对教会和国家的传统权威。这一理念也被铭刻在皇家学会的座右铭中——「nullius in verba」(不轻信任何人的话),该座右铭自 1660 年选定以来,至今仍在使用。 当然,我们的科学机构并不总能实现支持思想去中心化变革的理想!有许多案例——比如林恩·马古利斯、格雷戈尔·孟德尔或阿尔弗雷德·魏格纳——在这些例子中,科学界在应该认真对待新思想之后很久仍然抵制它们。但尽管如此,我们的科学机构表现得相当出色,保护和测试新思想,并放大真正的进步,即使这些进步来自外部人士。
那么,更新科学社会过程的类似过程又如何呢?我们以一个研究生试图取代当今的资助者或大学的具体例子开始了这一部分。但这个想法也可以更广泛地解释,包括同行评审、资助、招聘等社会过程的广泛变革,如第一部分讨论的替代方案。在理想情况下,会有一种方法让许多新社会过程的想法能够轻松试验,并迅速通过以下元科学学习循环[59]:

图中许多步骤如今可由大胆且富有想象力的资助者完成。但其中一些步骤目前仍难以实现。特别是,假设你试验了一种新的社会过程,并发现它远优于现有过程。你将如何推广它?在本节中,我们认为存在许多强大的力量阻碍着推广,以至于科学领域的许多现有社会过程几乎处于停滞状态,几乎无法改变。更广泛地说,在第二部分中,我们将讨论是否以及如何摆脱这种停滞,从而使科学的社会过程能够更快地得到改进。
当我们批评(比如说)资助者近乎停滞不前时,常常会立即被告知:「那不是真的,资助者一直在尝试新流程!看看对资助抽签的所有兴趣就知道了!」资助抽签的理念是,不再通过同行评审过程决定资助结果,而是从申请者池中随机选择资助对象(通常在过滤掉明显古怪的想法之后)。希望这能增加提交项目想法的多样性。这一想法似乎最早由丹尼尔·格林伯格在 1998 年[60]认真提出。自那以后的四分之一个世纪里,它得到了发展,并在 2010 年代后期开始进行小规模试验。如今,在 2020 年代初,资助抽签已成为一个时尚的研究话题。尽管我们怀疑它不会成为主导的资助模式,但在未来十年左右的时间里,它很可能会被广泛采用。
资助抽签确实很有趣,我们很高兴看到认真的试验。但它们作为对停滞指控的反驳,并未给我们留下深刻印象。它们更像是证明规则的例外。当一个想法需要四分之一个世纪才能引起广泛兴趣和认真试验时,这几乎算不上是活力!在同一时期,本应有(至少)一百个同样或更具雄心的想法得到试验。应该是洪流,而非涓涓细流。这些想法中的大多数可能会失败,或取得有限的成功。理想情况下,少数几个会如此成功,以至于现在已大规模部署。今天的资助应该与四分之一个世纪前大不相同。不仅仅是让管理官僚机构更满意——更多的流程、更多的繁文缛节、更多的「问责」要求。不:在科学上应该大大改进,推动发现的爆炸性增长。当《纽约时报》在 2020 年发表一篇赞扬资助抽签小规模试验取得鼓舞人心结果的文章时,他们简要提到了 NSF 和 NIH 的回应:「美国 国家科学基金会和国立卫生研究院表示,他们尚未测试抽签方式,目前也没有计划这样做。」改进他们的方法并不是这些机构的最高机构优先事项和紧迫事项。只有在不干扰其他优先事项的情况下才会考虑。
我们认为,科学领域的社会过程难以实现可扩展变革有四个主要原因。首先是科学控制权集中在少数大型资助者和有影响力的研究机构[61]手中。如果你让科学家告诉你资助、招聘和同行评审是如何出问题的,许多人会列举出一大堆问题,并提出改进建议。不幸的是,许多建议的形式是:「NIH [或 NSF 或《自然》或哈佛或其他少数组织之一]应该[做某某事]」。如果 NIH 或 NSF 的主任全力支持该提案,这可能会奏效。但这种情况很少发生。当大多数资源掌握在少数并非为经历根本性组织变革而设计的机构手中时,这些机构就成了阻碍改进的瓶颈。
其次,在许多情况下,没有一个单一的组织或个人能够推动变革。你再次听到:「系统需要以某种方式改变激励措施[或规范或流程]。」即使这是事实,也没有人单独负责诸如同行评审、高影响力期刊的重要性等流程。你无法与「科学整体」的负责人会面,说服他们全力支持变革。相反,这些都是集体行动问题。这并不意味着个人无法产生重大影响:例如,如果 NIH 的主任对影响因子发起猛烈抨击,他们可能会产生重大影响。但这仍然是一个社区持有的规范,需要集体变革。当然,你可能会私下抱怨激励措施不对,认为「应该采取一些措施」[62]。但尽管这可能会发泄情绪,明智的科学家大多只是继续他们的科研工作。
第三个因素强化了前两个,即同质化社会过程的网络效应。我们反复听到这样的变体:「我想尝试这个新事物——以非传统方式发表、支持高风险或不受欢迎领域的学生、转向一个不受欢迎的领域——但我现在有责任对我的学生和合作者保持现状。」这里存在一种社区的专制:人们不会尝试不寻常的事物,因为他们的社区会侧目;因此,这些不寻常的事物从未得到认真关注;结果,社区对这些可能性评价不高。这样的社区有机制帮助他们在科学观念上集体改变,但没有类似的机制来改变他们的社会过程。这被未来的阴影所加剧:人们担心社区未来可能的评判。例如,假设有人希望以非标准方式分享他们的科学成果:他们必须权衡这一愿望与(想象中的)未来某个招聘或资助委员会的负面评价。 这看似小事,但科学界的评判至关重要,它极大地抑制了实验的进行。
这三个因素严重制约了现有机构内部的变革。显而易见的解决方法是建立新机构,这些机构可以通过法令忽略前两个因素。例如,这些新机构可以简单地宣布禁止员工在高影响力期刊上发表文章,或者采取强烈鼓励高风险工作的做法。但这样做时,第三个因素——网络效应——对初创机构的影响更为强烈。考虑为 Jazzy 非营利(或营利)初创研究所工作的科学家们必须思考:他们真的愿意放弃在高影响力期刊上发表文章吗?或者从事可能不会成功的高风险项目?或者做任何违反其科学界规范的事情?如果他们决定离开 Jazzy 初创研究所的工作,他们是否会很难找到另一份好工作?毕竟,其他潜在雇主并没有因为 Jazzy 初创研究所的改变而改变他们的标准。未来的阴影对这些企业来说非常强烈,导致一种向机构均值的回归。我们中的一位(MN)曾在许多不寻常的初创研究组织中工作过。 这类组织内部长期存在的问题是:如果我坚持本地化的抱负,这会损害我在其他地方找到工作的机会吗?
现在,如果 Jazzy 初创研究所看起来有可能比其他机构发展得更大,那么这些力量是可以被克服的,因此它的标准将占据主导地位并取代现有社区的标准。但还有第四个瓶颈,即没有自然的反馈循环推动新机构的增长。特别是,即使一个新机构在科学上非常出色,这并不意味着它会比现有机构发展得更大。在这四个瓶颈因素之间,发现生态系统只能非常缓慢地改变其许多社会过程。
尽管如此,这些瓶颈仅适用于特定类型社会过程中的变革:那些被集体持有的进程。当社会过程不受中央机构、网络共识控制,或不受社区判断或未来阴影强烈影响时,改变它们往往是可能的。而当我们从实证角度观察时,会发现实验室和机构在这些方面存在大量差异。例如,我们见过在导师制度、接待访客或研讨会文化[63]等方面采取非常规做法的实验室。这类社会过程的变异超出了上述瓶颈力量的范畴,因此可以单方面进行改变。这些改变无论从实践角度——即进行更好的科学研究——还是作为元科学研究的对象,都具有重大意义。但它们不在本文讨论范围之内。从这个意义上讲,本文探讨的是元科学某一特定方面的愿景,即关注于改进那些被集体持有并因此受制于这些瓶颈的社会过程。 在本文的其余部分,我们将大部分省略「集体持有的」这一表述,尽管它应被理解为隐含在「集体持有的社会过程」之中。
我们认为,停滞影响了科学中集体持有的社会过程。这种停滞可以通过多种方式加以说明,我们现在将简要提及几种。这些例子并非作为决定性证据,而仅仅是看似合理的说明性示例。
一个典型的例子是上海排名,这是全球研究型大学历史最悠久的排名。自 2003 年创立以来的 19 年间,前十名大学几乎每年都在轮换,仅有一次例外(2003 年的第 8 名在 2004 年的榜单中被替换)。当然,这样的排名并不完美,或许未能捕捉到研究生态系统中真正的变化。但这似乎也并未体现出动态与变革[64]!相比之下,如果你考虑纳斯达克指数中的前十家科技公司,它们在相同的时间段内发生了翻天覆地的变化。2022 年的巨头包括 Meta(Facebook),它在 2003 年还不存在;特斯拉,它于 2003 年开始运营;以及 Alphabet(谷歌),在 2003 年还是一家有前途但规模尚小的私人公司。如今许多其他巨头在 2003 年时规模相对较小,如 NVIDIA、亚马逊和苹果,它们在纳斯达克上的排名都远低于现在。正如我们在本节开头所指出的,2003 年时,一个研究生创办自己的研究型大学并使其成长为世界前十的研究型大学,这根本是不可能的。 然而,类似的情况确实发生在纳斯达克公司身上。科技领域的制度活力远大于研究领域。这并不是世界固有的现象,而是制度设计方式的结果,因此是可以改变的。
作为另一个说明性的例子,考虑一下卡塔琳·卡里科(Katalin Kariko)的案例,她是信使 RNA(mRNA)疫苗背后的关键科学家之一,这些疫苗帮助结束了 2020 年代初主导世界的新冠疫情[65]。卡里科在相对默默无闻的环境中工作了数十年。她每年的收入从未超过 6 万美元,最终还被宾夕法尼亚大学降职。她的资助申请屡次被拒绝:「每天晚上我都在工作:申请资助,申请资助,申请资助……但总是被拒绝,拒绝,拒绝。」一位关键合作者谈到他们筹集资金的尝试时说:「人们对 mRNA 不感兴趣。审查资助的人说 mRNA 不会成为好的治疗方法,所以别费心了。」并总结道:「当你的想法与那些对‘星室法庭’有意义的传统智慧相悖时,很难打破这种局面。」卡里科最终离开了大学和学术界。
这个故事本身并不能说明停滞。相反,它似乎只是美国国立卫生研究院(NIH)和宾夕法尼亚大学犯下错误的一个例子。但任何系统都会犯错。当我们询问发现生态系统是否从这些错误中系统地学习时,停滞的问题就出现了。NIH 或宾夕法尼亚大学是否对这一失败进行了认真的事后分析,并对他们的工作方式做出了坚定的改变?迹象并不令人鼓舞。宾夕法尼亚大学在卡里科离开前降了她的职,现在却在广告中吹嘘「宾夕法尼亚大学的研究人员取得了突破」,促成了 mRNA 疫苗的诞生。美国科学促进会首席执行官苏迪普·帕里克声称:「mRNA 疫苗是我们对 NIH 投资翻倍的产物。」[66]他并不完全错误:mRNA 疫苗的一些后期工作确实受益于 NIH 的资助。但在关键的早期阶段,当最需要支持时,情况却是:「总是得到否定的回答,不,不,不。」如果研究机构能够并且愿意为那些明显搞砸的发现邀功,那么发现生态系统如何才能变得更好[67]?
卡里科的故事已在众多高曝光场合被反复讲述,以至于它可能成为规则中的例外,真正引发实质性的改变。然而,这样的模式并不罕见。20 世纪 80 年代末,分子生物学家道格拉斯·普拉舍成功克隆了赋予某些水母鲜艳绿色的绿色荧光蛋白(GFP)。普拉舍意识到,这种明亮的绿色使 GFP 成为一种极佳的示踪剂,一种可用于追踪细胞位置(不仅限于水母,还包括其他生物体)的标记,从而监测生物体内基因表达等过程[68]。遗憾的是,普拉舍进一步资助的申请被拒绝了;对人类而言幸运的是,这项工作被其他科学家接手,其中一些人后来获得了 2008 年的诺贝尔化学奖。一位获奖者这样评价普拉舍的贡献:「他们本可以轻易地将奖项授予道格拉斯和另外两人,而把我排除在外」[69]。在诺贝尔奖颁发之时,普拉舍已无法在科学领域找到工作,转而在一家汽车经销店担任班车司机。 诚实的工作,做出贡献,但也是许多人能够完成的事情。很难不认同他的一位前同事的说法,即这是一种「惊人的才华浪费」[70]。
再次强调:问题不在于资助者犯了错误。在高度不确定性条件下运作的大规模系统总会犯错。这类错误是过程中重要且不可避免的一部分。真正的问题是如何使这些系统具备响应性,以便它们能从错误中学习。因此,如同对待卡里科的情况一样,正确的问题是:是否对普拉舍的错误进行了严肃的事后分析?并且,是否因此对资助或招聘实践进行了任何系统性的改变?再次强调:我们并未听说有任何重大举措来推动此类改变。不幸的是,当前的发现生态系统似乎很少从这类错误中吸取教训。
你可能会回应:所有这些工作最终不还是完成了吗?那么,未能支持这些工作真的能成为对当前发现体系的控诉吗?如果它不因这些显而易见的错误而改变,这又有什么关系呢?这种论点的问题在于,我们无法知晓哪些发现根本未被实现。我们仅看到冰山一角,那些勉强找到出路的科学家们遭受了轻视。但有多少像卡塔琳·卡里科(Katalin Kariko)这样的人被错过了?有多少人此刻正在苦苦挣扎,或许正处在离开科学的边缘?又有多少人已经离开了科学领域,或从未踏入过?
不幸的是,我们所知的社会过程变革大多趋向于增加官僚主义和「问责制」。官僚体系渴望更多(表面上的)控制或许并不令人意外,但这些变革往往对科学的伤害与帮助同样多。因提出希格斯玻色子——某种意义上宇宙质量的终极成因——而获得诺贝尔奖的物理学家彼得·希格斯曾表示:「如今我无法获得学术职位,就这么简单」,并自称为「部门在研究评估活动中的尴尬存在」[71]。量子计算领域的共同创始人戴维·多伊奇在 20 世纪 80 年代初构思量子计算机时,并未获得任何资助。后来,1985 年,多伊奇获得了一笔小额后续工作资助。2018 年,他询问资助委员会的一名成员,按照 2018 年的标准他是否还能获得那笔资助,得到的回答是「没可能」,他无法满足任何一项条件。 在其诺贝尔演讲中,伟大的分子生物学家之一悉尼·布伦纳表示:「我特别要记录下英国医学研究委员会给予我的耐心和慷慨支持。这样的长期研究在今天无法进行,因为每个人都只关注有保障的短期成果,没有人愿意冒险。创新仅来自于对未知的挑战。」[72]而在 2009 年的《纽约时报》上,美国国立卫生研究院国家癌症研究所前所长理查德·克劳斯纳说[73]:「关于资助体系的每一次讨论,我都感受到一种强烈的共识,即它已经失灵。这对科学家、患者、国家乃至世界来说,都是一个巨大的机会浪费。」自那以来的 13 年里,作为全球最大的科学资助机构,美国国立卫生研究院仅对其运作方式进行了相对较小、逐步的调整。
在本节中,我们论证了科学的许多社会过程处于停滞状态,并识别出导致这种停滞的四种瓶颈力量。我们的论点并非无懈可击,也不期望说服那些不愿被说服的人。但我们相信,这一论点足够合理,可以继续推进。在本文的剩余部分,我们将探讨:如何避免或削弱这些瓶颈力量,以实现科学社会过程的可扩展改进?
成功的原型:复制危机与社会心理学的复兴
那么,打破这种近乎停滞的状态是否有任何前景?在理想情况下,我们会讲述许多鼓舞人心的变革故事,并制定一本手册,用于我们后来所称的元科学创业[74]。不幸的是,阻碍力量强大,我们在研究这篇文章时看到的许多例子都令人沮丧:「僵化的故事」更适合作为恐怖电影的标题,而非一篇关于科学的文章。尽管如此,仍有一些部分成功的案例,在本节中,我们讨论了一项我们钦佩的重大变革,既是为了从中学习,也是为了理解还有哪些工作有待完成。
该例子源自社会心理学中的复制危机[75],我们之前曾简要提及。这场危机通常被描述为负面事件,但正如我们将看到的,它可以被视为社会过程变革的积极原型,同时也展示了实施此类变革所面临的挑战。它或许最常与 2015 年一篇引人注目的论文[76]相关联,该论文尝试复制 100 项实验性社会心理学论文的结果,这些论文均选自顶尖心理学期刊。这篇由自称开放科学协作组织的 270 位作者共同完成的 2015 年论文发现,在 100 项复制研究中,仅有 36 项报告了统计学上显著的结果;相比之下,原始研究中有 97 项报告了统计学上显著的结果。此外,复制研究中的平均效应量大约仅为原始效应量的一半。
这篇论文不仅在社会心理学领域内,而且在更广泛的科学界引发了一场重大争议。许多人认为从 97%下降到 36% 是社会心理学领域存在严重问题的标志。2015 年《纽约时报》的一篇文章引用了蒂尔堡大学科学方法论与统计学副教授 Jelte Wicherts 的话,他说[77]:
我认为我们之前就知道或怀疑文献存在问题,但如此清晰地看到,而且规模如此之大——这是前所未有的。
自 2015 年发表以来,开放科学合作组织的论文在七年内被引用超过 7000 次。我们曾听到个别科学家表示:「我不再信任自己在[某个日期,通常为 2014-2016 年左右]之前发表的许多论文。」这并不是说他们在早期的论文中不诚实:相反,他们当时是诚实且谨慎地按照自己的理解进行研究,但现在他们意识到,早期工作中所采用的方法论并不可靠。
一些著名的社会心理学家对这种狂热感到不满。在同一篇《纽约时报》文章中,南加州大学心理学教授诺伯特·施瓦茨评论道:
毫无疑问,复制很重要,但它往往只是一种攻击,一种私刑行为
在一篇对 2015 年论文的严厉批评中,同样发表于《科学》 [78],哈佛大学和弗吉尼亚大学的研究人员得出结论:
我们赞扬那些旨在改进心理科学的努力,其中许多是谨慎、负责且有效的,并对产生 OSC(开放科学合作)所付出的努力表示赞赏。但元科学本身也不能豁免于科学规则。OSC 采用了一个未考虑其数据中多重误差来源的基准,使用了相对低效力的设计,这明显低估了真实复制率,并允许了相当大的不忠实性,几乎可以肯定地使其复制研究偏向失败。因此,OSC 严重低估了心理科学的可重复性。
正如这些引述所表明的,2015 年开放科学合作论文引发了许多反对意见,并引发了一场激烈且仍在持续的讨论。这些未能成功复现的研究意味着什么?社会心理学中一些常用技术是否存在重大问题?该领域是否需要重大改革?这对其他科学领域又意味着什么(如果有的话)?该论文提出了许多深思熟虑的警告,例如:
同样,轻易地认为无法复制结果就意味着原始证据是假阳性也是不恰当的。如果复制方法与原始方法在干扰观察效果的方式上存在差异,复制可能会失败。我们进行了旨在通过使用原始材料、邀请原作者审查设计以及进行内部审查来最小化预期不同结果的理由的复制研究。尽管如此,样本、环境或程序中的未预见因素仍可能改变观察到的效应大小……在如此努力地复制一批已发表心理学发现后,我们确定有多少效应是真实的?零。我们确定有多少效应是虚假的?零。这是项目设计的局限吗?不。这是科学工作的现实,即便在日常实践中不被理解。人类渴望确定性,而科学很少提供……科学进步是一个减少不确定性的累积过程,只有科学本身对其解释主张保持最大的怀疑态度,这一过程才能成功。
正如先前的引述所示,关于复制危机的原因存在分歧。然而,许多科学家怀疑原因是社会心理学中广泛使用的某些做法,这些做法可能使得发表错误结果变得容易。例如:只有在研究获得统计学上显著发现时才发表的做法。这听起来很合理——毕竟,当事情没有结果时,迅速转向下一个项目不是很有意义吗?这也很实际,因为许多科学期刊极不愿意发表无效结果。但这种做法有其阴暗面。如果你做了足够多的研究,纯粹的偶然性意味着你偶尔会得到看似「证据」的效果,但实际上只是统计上的侥幸。此外,如果很少报告无效结果,这意味着文献可能会充斥着提供「证据」的论文,而这些证据只是这样的统计侥幸。看似合理的做法可能会在科学期刊中造成严重的偏见。
我们聚焦于 2015 年开放科学合作论文在引发复制危机中的作用。但复制危机是逐渐形成的。全面回顾历史超出了我们的范围,但勾勒一些背景是有益的。起初,这段简史似乎与文章的脉络脱节:看不到社会过程的改变!但我们最终会发现,这些看似不相关的历史事实反映了为何改变社会过程如此困难,以及最终需要发生什么。2015 年的论文是 2011 年至 2015 年间一系列令人不安事件的高潮。这一系列始于 2011 年,当时著名社会心理学家 Diederik Stapel 被发现犯有欺诈行为,大规模伪造数据。自那时起,Stapel 的 50 多篇论文被撤回[79]。2011 年还见证了社会心理学家 Daryl Bem[80]发表的一篇论文,使用社会心理学方法为预知提供证据 (!!) 这不是一个怪人的作品,而是一位知名且受尊敬的社会心理学家在高影响力的《人格与社会心理学杂志》上发表的同行评审论文。 此外,与 Stapel 的情况不同,Bem 的研究并未涉嫌欺诈。Bem 的工作采用了该领域的标准做法[81]。然而,结果的极其惊人性质尖锐地提出了一个问题:这些标准做法是否有时会产生不可靠的结果。
2012 年,Stéphane Doyen 及其同事[82]发表了一项尝试复制心理学中著名的「启动」效应的研究——该效应表现为「无意中接触到年龄刻板印象的参与者在离开实验室时行走速度变慢」。然而,这次复制失败了。这对该领域来说是一次尴尬的失败,部分原因在于 2011 年诺贝尔奖得主丹尼尔·卡尼曼出版了一本广受欢迎的书籍[83],书中详细描述了启动研究。卡尼曼在书中关于启动效应表示:「怀疑不是一种选择。这些结果并非捏造,也不是统计上的偶然。你不得不接受这些研究的主要结论是真实的。」然而,失败的复制实验使卡尼曼对该领域失去了大量信心,他撰写了一封广为传播的信件,指出「关于启动效应结果的稳健性已提出质疑」,并认为「我看到一场灾难即将来临」[84]。卡尼曼的这封信受到了公众的广泛关注。
在这些事件的背景下,2012 年开始普遍使用「复制危机」这一短语来描述社会心理学的状态[85]。许多社会心理学家对他们领域的状况感到担忧,直到 2015 年开放科学合作论文表明这些问题并非偶发,而是可能影响了整个领域,令人不安的结果持续不断。
但尽管复制危机在 2011-2015 年间达到高潮,许多问题早已为人所知。著名心理学家保罗·米尔(Paul Meehl)[86]在 1985 年撰文时,指出了他所谓的「软心理学」中的 10 种「混淆影响」。这些是广泛使用的做法,包括上述仅提交获得统计学显著性研究以供发表的做法。米尔直言不讳:
这十种混淆因素的净认知效应是,通常的研究文献几乎无法解释……如果读者此时忍不住反驳:「好吧,但看在上帝的份上,你实际上是在说,尽管有 R. A. Fisher 等人在农学中的贡献,但在软心理学中通过否定假设来检验实质性理论的整个传统都是错误的。」这种抱怨并不会困扰我,因为这正是我所主张的。
「几乎无法解释」是我们所知的用来描述整个领域中很大一部分内容的极其严厉的措辞。其他科学家也经常提出类似的观点,尽管措辞不那么华丽。1975 年,著名社会心理学家安东尼·格林沃尔德(Anthony Greenwald)在写作中指出了[87]显著性检验存在的许多相同问题。其中,他认为以下行为存在问题:
当零假设被拒绝时,比未被拒绝时更频繁地提交结果以供发表……当结果接近拒绝零假设时(「接近显著」),继续研究问题,而如果拒绝零假设不接近,则放弃问题……未报告初始数据收集(重新命名为「试点数据」或「错误开始」)……对支持而非反对零假设的稿件采用更严格的编辑标准进行评估。
所有这些做法都是可以理解的,非常人性化的行为。如果你的研究「几乎」显示出统计学意义,那么再运行几次分析以希望达到显著性阈值是很有诱惑力的。这样你就可以发表它,而不是把几个月的工作当作无法发表的东西放弃!不幸的是,这种做法也可能导致科学文献中充满错误的结论。正如第一部分提到的,2005 年,元研究者约翰·约安尼迪斯发表了标题颇具挑衅性的《为什么大多数已发表的研究发现是错误的》。约安尼迪斯论文的核心在于,在科学的许多领域,我们缺乏好的理论来告诉我们哪些假设是合理的,哪些不是。正因为如此,人们可能会测试许多错误的假设:如果他们测试的错误假设远多于正确的假设(比如,每有一个正确的假设就有 20 个错误的假设),那么在已发表的文献中,假阳性可能会超过真阳性!事实上,对于任何给定的实验数据集,通常可以运行许多不同的分析,通过这种方式,你很可能会最终发现一些看似有趣且似乎(!)得到数据支持的假设。 科学文献将充斥着看似合理的结果,这些结果实际上只是统计上的偶然现象,并不能说明自然界的任何问题。
在 2011-2015 年复制危机达到顶峰之前,Meehl、Greenwald 和 Ioannidis 的论文是由知名科学家撰写的高引用论文。还有其他类似主题的论文,正确地指出了社会心理学和其他领域中标准实践的严重问题。然而,这些有充分依据的批评几乎没有引起科学家实际执行实践的明显变化。直白地说:在 2011-2015 年之前,复制危机背后的根本问题已经广为人知数十年。然而,几乎没有任何措施被采取来解决这些问题。
2011-2015 年危机的巨大好处在于,它如此剧烈,以至于促成了真正的方法论和社会变革。许多这些变化体现在社会过程的转变中。其中之一是科学家和期刊逐渐采用一种名为「注册报告」[88]的论文发表方式。在传统的论文发表流程中,科学家设计并执行实验,分析结果,然后将描述结果的论文提交给期刊。论文经过同行评审,若通过评审则予以发表。要通过同行评审,论文不仅需在方法论上站得住脚,还需被视为「科学上有趣」。尤其是高影响力期刊,对「有趣」设定了高标准。不幸的是:「我们寻找某某效应却一无所获」通常不被视为「有趣」。这造成了不良激励:作为科学家,你可能会不断从数据中提出不同问题,直到发现一个显著效应,一个可能符合「有趣」标准的效应,从而得以发表。 或者,人们可能会忍不住继续收集更多数据,直到达到显著性水平(从而能够发表)。诸如此类。看似无害甚至明智的事情——期刊希望发表有趣且积极的结果——却带来了许多不良后果。
注册报告从根本上改变了这一模式。其理念是让科学家提前设计研究:明确要收集哪些数据、进行哪些分析、提出哪些问题。然后,该研究设计会公开预注册,并在数据收集之前由期刊进行评审。由于尚未收集数据,评审者无法知道结果是否「有趣」。此时还没有结果!相反,他们关注的是设计是否合理,以及提出的问题是否有意义——这与答案是否有趣完全不同!如果论文通过这轮同行评审,才会进行实验并完成论文。随后进行常规的第二轮评审,以确保方法的严谨性,论文最终发表。截至本文撰写时(2022 年),已有 300 多家期刊在发表注册报告。
有令人鼓舞的迹象表明,像这样的预注册研究设计正在帮助解决上述方法论问题。请看以下五张图表。这些图表展示了五项主要研究[89]的结果,每项研究都试图复制社会科学文献中的许多实验。实心圆表示复制发现了统计学上显著的结果,且方向与原始研究相同。空心圆表示未达到此标准。线上方的圆表示复制效应大于原始效应大小,而线下方的圆表示效应大小较小。高度的可复制性将意味着许多实验带有实心圆,且相对集中在线的附近。以下是这五项复制研究实际发现的情况:

正如你所见,前四项复制研究显示出许多结果存疑的复制——效应量的大幅变化,或未能达到统计显著性。这表明需要进一步调查,可能意味着最初的结果存在错误。第五项研究则不同,在所有情况下都复制了统计显著性,且效应量的变化要小得多。这是 John Protzko 等人于 2020 年进行的一项研究[90],旨在成为「最佳实践」研究。他们通过预先注册的研究设计、大样本以及代码、数据和其他方法材料的公开共享来实现这一点,使得实验和分析更易于复制。进行原始研究的实验室各自进行了自我确认的复制;然后他们邀请另外三个实验室进行复制——上图中的第五个图表展示了这些独立复制的综合结果。简而言之,第五个图表中的复制基于使用了比以往心理学领域常规高得多的证据标准的研究。当然,这些结果并不证明效应是真实的。 但它们非常鼓舞人心,并表明像注册报告这样的理念的传播有助于取得实质性进展。
虽然复制危机通常被负面描述,但在我们看来,回顾 2010 年代,这将被视为社会心理学复兴的开端。2011-2015 年并非消极时期,而是人们开始聚焦于存在数十年的问题,并采取行动解决这些问题的阶段[91]。最终结果很可能是一个大幅改进的领域。这通过改进的规范、工具、培训得以体现,但所有这些都通过新的社会过程得以实例化和集中体现,或许最显著的是预注册的广泛使用,以及数据和材料开放共享等理念。
话虽如此,这仍是一项进行中的工作。代码和数据共享以促进复现正在迅速增加,但远未普及。而且,目前尚不清楚预注册应被使用的频率。早期的、非预注册的风格对于快速探索性工作很有用;完全消除这种风格会使心理学倒退。能够快速且不严格地进行探索是很重要的!这类探索性研究应继续进行,但我们在思考结果时需要更加谨慎。除了这些探索性研究,还会有更严格的研究,采用更高的证据标准,如预注册等理念。最终结果可能是两种或更多常见的出版风格,具有不同的认识论地位。抛开推测不谈,根本性的变化仍处于萌芽阶段:人们价值观的变化,他们关于如何做科学的非正式民间模型,以及这些在社会过程中的具体化方式。但尽管处于萌芽阶段,进展令人鼓舞。这是一个科学的社会过程在一个领域内广泛发生重大变化的例子。社会心理学正在经历一场重大的文化变革。
当我们与元科学同事讨论复制危机时,偶尔会被告知复制工作「很好,但很无聊」。它不像那些光鲜的新研究所展现出的令人难以置信的乐观阳光,也不是关于新资助方式的奇思妙想。没有人会得意洋洋地接受采访,讲述他们如何拯救科学。这是一套简单而有力的理念,旨在推动社会和方法论的变革,使社会心理学更加可靠。虽然它并不引人注目,但正在广泛推广。不仅仅是局部的一两处改变,而是对心理学运作的社会过程进行重大而广泛的结构性调整。而且,这是在数十年的无所作为之后实现的。这是一个宝贵的例子,展示了科学的社会过程如何能够改变,从中我们可以学到很多。
从社会心理学的文艺复兴中学习
危机是浪费不起的宝贵机会。——保罗·罗默
我们能从社会心理学的复兴中学到什么?对我们来说,一个重要启示是,深刻的危机有助于推动科学社会过程中的广泛变革。正如我们所看到的,几十年来,知名科学家们指出了社会心理学实践中的问题,并提出了解决方案。然而,这种认识并未引发重大危机,也未带来实质性变化。即使是小规模的危机——如 2011 年 Bem 关于预知的论文,或 2012 年 Doyen 未能复现启动效应研究——也不足以引发变革。直到 2015 年开放科学合作组织的出现,危机才变得尖锐。直到那时,科学家和机构才开始广泛愿意考虑替代的工作方式[92]。
当然,仅有危机本身也是不够的。它需要深刻的新思想,如注册报告[93],以及使其运作所需的工具构建和基础设施。它需要与期刊和其他组织建立伙伴关系,以便注册报告有机会被广泛采用。它需要品牌塑造、市场营销和叙事构建,以获得广泛采纳并开始改变科学家内在的价值观。它需要构建更多的工具和基础设施来存储代码、数据和材料,以便更容易地进行复制。而且,正如我们将看到的,它还需要机构建设。如果这些事没有在尖锐的危机之上发生,该领域仍将停滞不前。从这个意义上说,危机促成了变革可能发生的条件。但要使变革真正发生,还需要许多其他要素。
许多这些必要的要素都超出了科学家通常的工作职责范围。考虑到格林沃尔德、米尔和约安尼迪斯都在做学术研究科学家常规的工作:发展思想和理解,发表论文。但尽管思想和理解很重要,仅凭它们本身并不足以产生变革。科学家通常「不应该」构建工具和基础设施,除非是为了获取他们科研工作中急需的数据[94],他们也不「应该」参与品牌建设和营销,这些活动是许多科学家嗤之以鼻的。然而,这些活动对于文化变革至关重要。因此,实现变革所需的行动并不属于传统上被视为科学家工作的一部分。这是实现此类变革的一个主要障碍。
许多人在引发复制危机中扮演了重要角色。但或许没有人比布莱恩·诺塞克做得更多。诺塞克是一位社会心理学家,直到 2013 年还是弗吉尼亚大学的教授。2013 年,诺塞克从终身职位上请假,共同创立了开放科学中心(COS),作为一个独立的非营利组织(与当时他实验室的研究生杰夫·斯派斯共同创立)。诺塞克和 COS 是 2015 年开放科学合作组织复制论文的关键共同组织者。诺塞克和 COS(与丹尼尔·拉肯斯、克里斯·钱伯斯等许多人一起)在开发注册报告中也处于核心地位。特别是,他们创建并运营了 OSF 网站,这是支持注册报告的关键基础设施。OSF 不仅仅做这些,它还是一个供科学家分享论文、代码和数据的通用平台,旨在使其他实验室更容易复制工作。最后,诺塞克一直是复制的频繁公开倡导者,进行实地工作以改变科学家对这一主题的看法,这既需要强有力的科学论证,也需要良好的营销和品牌建设。 简而言之,Nosek 和 COS 是推动社会心理学发生大规模系统性变革的关键人物。他们正在帮助改变科学文化。
COS 的起源故事颇为有趣。2007 年至 2008 年间,Nosek 向 NSF 和 NIH 提交了多项资助提案,提出了许多最终成熟为 COS[95]的想法。然而,所有这些提案均遭拒绝。2008 年至 2012 年间,他放弃了申请元科学领域的资助,转而主要依靠自己实验室的资金,资金来源包括他之前专业工作演讲所得的酬金。Nosek 的一名研究生 Jeff Spies 为开发后来成为 OSF 的网站做了一些初步工作。2012 年,这一项目获得了一些媒体关注,进而引起了包括由亿万富翁对冲基金运营者 John Arnold 及其妻子 Laura Arnold 创立的基金会在内的几家私人基金会的注意。Arnold 基金会迅速伸出援手,同意提供资助,最终以 525 万美元的赠款形式实现。
在资金的推动下,2013 年,诺塞克离开弗吉尼亚大学,创立了开放科学中心(Center for Open Science)。这看似奇怪:为何不将其保留在大学内?但正如我们所看到的,COS 的工作并非传统意义上的社会心理学。相反,诺塞克更像是一位元科学企业家,致力于在科学的社会过程中实现可扩展的变革。将 COS 独立设立,使他们能够以传统学术环境中难以实现的方式自由运作。例如,在许多大学中,招聘开发 OSF 和注册报告等基础设施所需的设计师和程序员既困难又缓慢。诺塞克向我们估计,COS 员工中大约五分之一可被视为传统意义上的研究人员。在学术环境中尝试进行此类招聘时,反复出现的反对意见是「那并不真正属于科学」。回想起来颇具讽刺意味:诺塞克和 COS 将元科学置于其实践的核心,从而对心理学产生了巨大影响。这为科学家身份提供了更为广阔的视角。
这个故事具体反映了我们之前讨论的许多抑制因素。考虑一下「那并不是真正的科学」问题:科学社会过程的变化不是任何人的工作,当然也不是工作科学家的职责。或者通过传统渠道筹集资金的挑战:在我们看来,COS 最终从一个非传统来源筹集资金并非偶然。然后是来自重要同行的敌意这一结构性障碍。Nosek 报告说,一位记者告诉他,一位「大人物」同行曾说过「Nosek 是 John Arnold 的愿意的傻瓜」。Tage Rai 在 2015 年文章后成为《科学》杂志的编辑,多次攻击复制工作,例如声称「有强大的私人和政府利益希望利用复制危机来获得决定你可以进行何种研究的杠杆」,并直接攻击 Nosek。因此,复制危机是一个关于毅力的故事,不仅仅是 Nosek,而是所有参与者的故事。我们在这里认为,文化变革往往是通过对科学中强大机构的持续批评来实现的。 这需要勇气,并可能在科学的自治模式下产生重大的职业后果,因为在这种模式下,个人的未来是由其同行的判断决定的。为科学机构制造危机是一种极不受欢迎的职业举动。
Nosek 和开放科学中心在社会心理学的复兴中发挥了关键作用。然而,像我们这样单独挑出一个人是不公平的,也是历史不完整的:我们所描述的工作是一场涉及数百或数千其他人的运动的一部分。遗憾的是,复制危机的详细历史超出了我们的范围。对于那些我们不公平地省略了他们工作的许多人,我们表示歉意。我们之所以给出这段不完整的历史,是因为它突显了科学社会过程中变革的一个重要模式:元科学企业家的模式。
元科学创业
你无法通过对抗现有现实来改变事物。要改变某样东西,建立一个使现有模式过时的新模式。——巴克敏斯特·富勒
元科学企业家是指致力于在科学的社会过程中实现可扩展改进的人,尤其是局外人。他们负责推动变革的发生。列举几位当前或近期活跃的元科学企业家:有保罗·金斯帕格(Paul Ginsparg),他创立了 arXiv 预印本服务器;有希瑟·约瑟夫(Heather Joseph)和彼得·苏伯(Peter Suber),他们各自以不同方式助力增加科学论文的开放获取;有亚当·马布尔斯通(Adam Marblestone)、阿纳斯塔西娅·加米克(Anastasia Gamick)、萨姆·罗德里格斯(Sam Rodriques)和汤姆·卡利尔(Tom Kalil),他们正在开发我们之前提到的专注研究组织(Focused Research Organizations);有唐·布拉本(Don Braben),他在英国石油公司(BP)和后来的伦敦大学学院(University College London)创立了风险研究单位,主张给予科学家更多自由去追求雄心勃勃的研究方向;有布莱恩·诺塞克(Brian Nosek)以及许多其他致力于社会心理学复兴的人。当然,还有许多其他的元科学企业家[96]。并非所有科学社会过程的变革都通过元科学创业实现,但它是一种极其重要的模式[97]。
「元科学企业家」这一术语是新的,我们在决定使用它之前考虑了许多其他术语。也许我们考虑过的最佳替代方案是「应用元科学家」:它更简短,更容易上口,而且一些科学家对「企业家」的商业色彩持怀疑态度[98]。然而,「应用元科学家」的问题在于,它隐含地暗示了一个理论元科学的体系,然后由应用元科学家使用。实际上,我们预计这种联系是强烈双向的,因此我们更倾向于使用「元科学企业家」。我们担心这个术语可能会误导人们认为它是关于盈利的;相反,它是关于一个更广泛的创业概念,即致力于构建未来的人。无论如何,这一概念确实需要一个好的术语,我们欢迎更好的表达方式。
我们曾争论过,在某些情况下,制造危机对于推动社会过程中的广泛变革至关重要。那么,是否有可能避免制造危机,或者说这是否必要?我们认为,当社会过程处于空白期时,避免危机是可能的;然而,当存在既有的体系和网络效应阻碍变革时,这就变得困难得多。例如,在复制危机之前,社会心理学家单方面采用更好的实践极为困难。这既有实际原因(缺乏工具和基础设施),也有社会原因(这样做会使他们及其合作者在短期内处于与同行相比的竞争劣势)。同样,尽管像 Don Braben 这样的人可以为其科学自由的方法运行试验项目,但这并不意味着他的方法就能取代更传统的方法而获得认可。要实现这一点,很可能需要对那些传统方法产生信心危机,以助长变革的发生。
在我们对元科学创业的解释中,我们强调了外部人士的作用。当然,像 Nosek、Ginsparg 等人从某些意义上讲并非外部人士:毕竟,他们的职业生涯都是作为科学家度过的。但我们所说的外部人士是指他们并非强大机构的决策者,无法调动巨额资金或改变政策。他们也不极其富有,能够随心所欲地建造他们想要的东西。之所以让外部人士成为元科学创业者很重要,是因为这将分散科学社会过程中的变革。这将扩大能够引发变革的人群范围;并增加尝试的想法范围。事实上,如果需要对现有机构进行严厉且持续的批评,外部人士的参与可能是必不可少的。从系统内部引发危机可能极其困难。回想一下,Nosek 无法从传统资助者那里获得支持;当他确实获得资金时,他离开了学术工作,建立了开放科学中心。当然,随着时间的推移,他与现有机构合作以推动变革。 但这一变革是由现有权力中心之外的力量引发的。这正是成功革命的模式。
基于这些原因,我们并不期待所有甚至大部分关于变革的最佳想法会来自少数主要资助机构的负责人,或是那些希望产生影响的富裕个人。我们预计,最好的想法将来自边缘地带意想不到的人。正如我们之前提到的,17 世纪科学革命的一个巨大成就是实现了思想变革的去中心化:培根帮助打破了教会和亚里士多德在权威上的垄断;皇家学会将去中心化融入其座右铭「nullius in verba」(不轻信任何人的话)中。我们需要同样的去中心化能力来改变科学中的社会过程。而目前,尚缺乏制度化的手段来实现这样的变革。
这种以外部为导向的方法可能与以内部为导向的方法形成对比。当然,许多人希望帮助现有的资助者和研究组织尝试新想法,并推广最佳实践,或许做一些类似于 J-PAL-for-science 的事情。领导和建议这些组织的人可以做出很多贡献,但这些角色很可能是内部的、渐进的和演化的。许多人认为,只要在他们喜欢的资助机构工作几年,他们就能做出必要的大变革。但他们陷入了现有系统的惯性中。大多数组织并非为快速变革而设计,它们当然也不是为了承认过去做事方式的错误而设计的。我们曾与一些世界最大资助机构的高层人士交谈,他们表达了这样的信念:他们的手脚被束缚住了,组织需要的变革远超出其能力范围。这与元科学创业者的外部视角截然不同,后者可能在社会过程的空白地带工作,或对现有机构提出真正颠覆性的批评。 同样,资助方的一些人向我们表示,他们正在从事元科学创业。然而,他们并非如此:他们所面临的障碍截然不同,需要单独分析。
这就是为什么我们专注于元科学创业,并(在下文中)关注旨在帮助外部人士获胜的结构性变革。外部人士可能一开始拥有的资源远少于现有企业;但如果他们的想法和执行更出色,在一个理想的系统中,他们将成长并超越那些现有企业。
这类元科学创业者的工作可能与通常被评估为有前景的内容大相径庭。令人惊讶的是,许多提案来自真正的局外人(有时是硅谷居民),包括那些在科学职业生涯中仅取得过一般成就的人。这曾让作者之一(MN)感到恼火,当他看到这些局外人自信满满地宣称「科学出了什么问题」时[99]。他心中反驳道:「如果你对科学如此了解,为何自己未曾做出重大发现?」但他(某种程度上!)改变了看法。硅谷特有的那种在坚定行动中的过度自信,值得其他地方效仿,它使得那些原本不会被探索的想法得以尝试[100]。当然,这通常以失败告终。但真正的科学成功或许能弥补所有其他尝试的损失。我们本不会投资于 DeepMind,这家由初出茅庐的研究生创立、获得风投支持的公司。而那样的话,我们不仅在财务上会犯错,更重要的是在科学上也会错失良机。有时,局外人确实能找到更好的做事方法。
让我们回到元科学学习循环:

现有组织可以采取许多措施来促进这一进程。上述所有元科学企业家都已经(或可能将)产生改变世界的影响,远超一般的科学资助;尽管如此,他们在筹集资金时都遇到了异常多的困难。资助者通常不寻求资助这类活动,往往认为它「不算是真正的科学」。目前,文化变革并非任何人的职责。作为资助者,两项简单的促进活动将是:
- 元科学创业奖学金:一项为期三年的元科学创业者奖学金。我们预计这对早期阶段的人尤其有帮助:现有的资助者特别不愿意资助早期努力,而这时资助最为有益。此类奖学金可用于为已有职位的人购买薪资(或提供休假)。我们希望看到这样的资金(或更多)提供给像 Elisabeth Bik、James Heathers、Tal Yarkoni 等人。当然,许多挑战需要克服。如前所述,当前的元科学创业者常常被同行指责为「不做科学」[原文如此];这项奖学金需要谨慎处理,以在科学家中制造地位。另一个担忧是关于奖学金获得者「离开」科学的看法:如果他们决定不继续该项目,可以通过提供(例如)两年的重返原领域的薪资来部分解决这个问题。该奖学金也可以作为迈向以下目标的一步:
- 元科学创业组织:目前,诸如开放科学中心等项目是以定制化的一次性方式获得资助的。如果这些努力能够以可扩展的方式进行,将会更好。元科学创业通常涉及许多不同的活动:理论元科学、工具构建、机构建设、社区建设、文化变革、伙伴关系建立、政策工作等。这需要多人以协调一致的方式行动。
正如我们所指出的,元科学创业往往需要一场危机才能带来变革。然而,危机也让既得利益者感到不快。在许多情况下,如果人们没有对元科学创业者大声疾呼,这意味着他们并未产生太大影响。布莱恩·诺塞克被称为「约翰·阿诺德心甘情愿的傻瓜」,在某种意义上是一种成功的标志。或者更微妙地说,将这些人贬低为「非真正的科学家」,而仅仅是清理他们前辈的工作。换句话说:社区的愤怒或轻蔑实际上可能是成功的有用替代指标。出于这些原因,像上述这样的项目可能是外来者、有胆识的资助者以及希望超越科学体制的逆向思维者的良好目标。长远来看,一个良好的目标将是改变科学家角色的概念,使其包含元科学创业。
在更为传统的模式下,所有资助者(以及更广泛地说,科学机构)都应能够建立一个:
- 内部元科学计划:资助者应至少预留 10% 的资金,用于试验数十个极具想象力的项目,认真评估它们与基准的对比,然后进行迭代并最终淘汰或扩大这些项目,迅速为新项目的试验创造空间。
按照当前标准,10% 的比例相当可观。我们将其视为资助者的自我提升基金。20 世纪初,顶级运动员的「训练」主要是通过比赛来进行。他们并不真正理解如何训练。但训练正是尝试新事物、摸索如何使其奏效,并可能彻底改变比赛方式的过程。投入 10% 似乎是将训练视为严肃事务的最低限度。
我们最终希望看到的是一个繁荣的元科学家社区的出现[101]。这个社区将融合理论元科学(研究哪些方法行之有效)以及元科学创业(尝试构想并构建未来的社会过程)。在这个未来中,元科学家将成为一种共同的理想身份,就像现在的「科学家」或「企业家」一样。一个实践社区可能会发展起来,分享想法、指导、资源等。它可以识别出改进科学的模式,以及导致失败的模式[102]。对这些模式缺乏认识意味着,如今大多数元科学创业的尝试要么失败,要么从未起步。在文章的剩余部分,我们将论证如果这个社区繁荣起来,它可以将元科学置于科学的核心,成为一种引擎或动力,推动科学社会过程的分散式改进。
元科学创业模式
我们已经详细讨论了复制危机,因为它遭受了许多先前确定的抑制效应的极端版本。我们在这里没有空间详细讨论许多其他例子。但识别一些元科学企业家使用的不同模式是有帮助的。
例如,预印本平台 arXiv 的成功主要依赖于构建一个对科学家有吸引力的优秀产品。一个主要的阻碍因素是“它根本就不是科学”。arXiv 的创始人保罗·金斯帕格(Paul Ginsparg)是一位著名的物理学家,曾在洛斯阿拉莫斯国家实验室(LANL)从事弦理论研究。但随着 arXiv 的发展,它占据了他越来越多的时间,他逐渐成为了我们所说的全职元科学企业家。最终,他在收到一份不利的绩效评估后辞去了实验室的职位,评估中称他「没有为实验室项目贡献特定的计算机技能;根据外部市场调查,容易被替代,而且薪酬过高」。他去了康奈尔大学,越来越多的职业身份投入到了 arXiv 中。他在康奈尔的一位新同事谈到他在洛斯阿拉莫斯的绩效评估时说:「显然,他们的表格上没有一栏可以填写:『彻底改变了物理学及其他领域科学信息的性质和传播范围』」。[103]
arXiv 并未像我们在社会心理学中讨论的变化那样受到抑制网络效应的强烈影响。例如,大多数情况下,科学家向 arXiv 提交论文不会遭受任何不良影响。当他们首次使用 arXiv 时,可能会担心被抢先发表或违反期刊出版政策,但这些相对较小的担忧通常很快就会被克服[104]。arXiv 采用了一种巧妙的增长策略,从一个相对狭窄的领域——高能理论物理学——开始,他们可以利用 Ginsparg 的专业关系进行引导。随后,邻近领域的科学家会开始关注,使得这些邻近领域成为 arXiv 扩展的良好途径[105]。遗憾的是,arXiv 的收入远低于《物理评论》(The Physical Review),后者可能是物理学领域的主要出版商;arXiv 对物理学(更不用说其他科学)的进步已经变得比《物理评论》重要得多。
开放获取倡导者如希瑟·约瑟夫(Heather Joseph)和彼得·苏伯(Peter Suber)采取了与元科学创业截然不同的方法,他们帮助在智力上构建并游说开放获取政策。我们之前提到,通过强大的资助机构推动变革很少是可行的。但开放获取游说者正是采取了这一策略(并且成功了!)。其核心在于说服强大的资助机构及其政治领导者采纳开放获取指令。例如,美国国会规定,自 2008 年起,NIH 资助的研究必须在发表后 12 个月内开放获取。此后,该政策得到了加强,最近一次是在 2022 年,白宫指示所有资助研究的美国政府机构制定政策,使研究成果能够立即公开访问。这一进展是通过过去 20 年的大量游说实现的。从这个意义上说,它与 arXiv 大不相同:它不是科学家直接使用的产品,而是一项旨在实现集体行动的政策变革。 为了促成这一行动,有必要寻求顶尖科学家的帮助来影响强大的实体,而不是说服科学界的每一个人。然而,我们注意到,一些相同的抑制模式仍在起作用:与早期的例子相呼应,苏伯辞去了终身教授的职位,并由一系列临时资助提供资金。
另一位元科学企业家唐·布拉本(Don Braben)在 1980 年代利用英国石油公司(BP)的资金创立了风险研究单位(Venture Research Unit)。这一举措旨在识别并资助那些异常大胆的科学研究。布拉本热衷于资助那些他称之为「普朗克俱乐部」潜在成员的科学家,即从事与量子力学创始人马克斯·普朗克(Max Planck)相媲美工作的人。他说服 BP 投入超过 2000 万英镑于风险研究单位,资助了全球科学家提交的大约 30 项提案。为了传达他所寻求的研究特质,布拉本提出了 BRAVERI 评分(布拉本风险研究指数),该指数对以下特点的研究提案给予高分:难以界定;没有现存的同行群体;难以在主流期刊上发表;几乎没有或完全没有竞争;且成功在初期没有明确定义。为了使评分更具象化,在时间尺度这一评分组成部分,布拉本建议奖励那些时间尺度「不确定」且「成功,无论是什么,可能随时实现,或永远无法实现」的项目。 相比之下,如果一个项目「预计在规定时间内达到目标」[106],它将会受到惩罚。风险研究部门是一个非凡的试验,他写了几本引人注目的书籍,讲述了这个及相关主题[107]。它影响了其他项目,但它并不是科学文化变革决定性扩展的例子。例如:据我们所知,没有大规模资助项目使用明显源自 BRAVERI 的标准。这是一个扩展困难的例子。我们预计,今天的大多数元科学企业家无论他们的想法是否是对现状的决定性改进,都将面临同样的命运。
这些元科学创业实例之间存在许多显著对比。正如我们所看到的,Braben 的方法尚未大规模推广。虽然他提供了一份不错的资助项目清单,但这并不能证明他的方法优于传统方法。最初对 Braben 持敌对态度的人不太可能被他提供的证据说服。相比之下,开放科学中心之所以成功,是因为他们获得了决定性证据,证明:(a) 社会心理学领域存在问题;(b) 他们开发了一套更为优越的社会和方法论流程。证据如此有力,以至于连最初对该方法持敌对态度的人也被说服了[108]。arXiv 和开放获取指令则又是另一番景象。开放获取指令是通过说服有权势的个人和机构实现的。arXiv 则是通过科学家个人决定常规使用 arXiv 来推动变革的。我们个人支持这两者,并相信为其提出的核心论点是正确的——事实上,我们中的一位(MN)曾多年担任开放科学的倡导者。 但即便如此,对上述论点持敌对态度的人仍可能真诚地保持其立场[109]:我们并没有压倒性的证据表明 arXiv 或开放获取授权对科学有决定性的优势。话虽如此,我们对 arXiv 采用的去中心化产品采纳模式表示同情。在没有强有力的反面证据的情况下,我们信任科学家个人会选择最适合他们的方式。对于以开放获取授权为代表的集中式变革模式,我们则更为谨慎。任何集中式模式的一个危险在于,说服和政治因素可能导致有害的流程被采纳,除非在控制点上设定一个高证据门槛。请注意,我们这里讨论的不是具体的开放获取政策,我们坚信这些政策是有益的,而是从变革机制的本质出发,做一个抽象的观点阐述。总体而言,关键在于我们希望成功的变革模式能够带来科学的进步。
我们已经识别出几种不同的元科学创业模式。在本文的剩余部分,我们将特别关注其中一种,即在复制危机中使用的模式。这种模式可能是最具挑战性的,它既需要在理论元科学中取得决定性成果,又需要有效的元科学创业来推动变革。但首先,让我们对其他模式做一些总结性评论。总的来说,分散式产品采用模式的适用范围有限,因为许多社会过程并不通过产品来表达。但当它适用时,它可能非常强大,并且不太受早期抑制效应的影响。因此,在本文的剩余部分,我们不会过多讨论它。集中式变革模式可以奏效,但存在一个问题,即可以基于良好的视觉效果、政治可接受性等进行任意更改,而没有任何改进的保证。当然,没有人会认为这是他们的计划!使这种模式成为良好模式的最佳方法是从理论元科学中提高证据标准。因此,我们随后对理论元科学的讨论也适用于这种模式。 正如我们之前提到的,那些局部的、非集体持有的社会过程相对容易改变,因此我们不再进一步讨论。在文章的剩余部分,我们专注于理论元科学模式。它适用于许多社会过程,并且能够克服前面提到的所有抑制因素,包括根深蒂固的规范、未来的阴影、网络效应等。
结合之前对局部与集体持有的社会过程变化的区分,我们可以将情况直观地总结如下:

在难度上存在一个滑动尺度,一端是在没有现有既定流程或较少阻碍的情况下处理社会过程的工作,另一端则是在存在重大阻碍和既定流程的情况下处理工作:
我们能否利用决定性的元科学成果来推动科学社会过程的改进?
让我们再次回到元科学学习循环,

社会心理学中的复制危机是一个已经实现规模化的例子,元科学成果推动了整个领域的重大变革。是否有可能开发出更广泛的元科学成果,足以推动其他社会过程的类似改进?许多人提出了这一愿景的变体。例如,2012 年 Pierre Azoulay[110]提出:
是时候将科学方法应用于我们自身了。在尝试改革科学机构的过程中,我们应坚持与评估研究成果时相同的实证标准。我们已经知道如何做到这一点:通过对提议的改革进行前瞻性、随机对照实验。使用选定样本进行的回顾性分析往往不过是试图为过去的选择辩护的隐蔽尝试。
许多类似举措正在进行中。其中包括由詹姆斯·威尔逊领导的「研究研究院」[111];保罗·尼豪斯和海蒂·威廉姆斯为开发 J-PAL-for-science[112]所做的工作;以及由布莱恩·诺塞克领导的提议,旨在建立「国家科学基金会改进科学科技中心」[113]。还有一些相关构想,如詹姆斯·埃文斯和雅各布·福斯特提出的利用元知识研究来「重塑科学」[114]的提议。
这一愿景源自于衡量科学的悠久传统。詹姆斯·卡特尔(James Cattell)在 1910 年撰写了一本关于元科学的早期著作[115],提出了挑战:「现在确实是科学人士运用科学方法来确定促进或阻碍科学进步的环境的时候了。」如今,仅列举出为这一传统做出贡献的学科就需要一些时间——经济学、科学计量学、科学政策等等。让我们简要地看看这些文献中的一些代表性成果。我们这样做并不假装全面,而是旨在提供一些背景,以便更好地理解元科学的机遇与挑战。
一项丰富的研究工作是比较不同国家的想法。例如,罗伯特·梅和大卫·金[116]的论文中已经进行了这样的比较,他们使用引用、出版物和奖项等指标进行国家层面的比较。经济学家如罗伯特·索洛、兹维·格里利谢斯、保罗·罗默和罗伯特·戈登也以非常不同的方式进行了类似的研究,他们试图理解科学研究与 GDP 增长等经济学概念之间的关系。这两类研究都可以被视为一种宏观科学,试图开发综合指标来理解(在许多情况下管理)科学的高层次进展。还有一种更中层的「中观科学」,比如上海研究型大学排名,或英国研究卓越框架(REF),它们对个别大学院系进行排名。这两类研究都在高度抽象的层面上评估科学——抽象到它们并不直接与社会过程内在联系,也不系统地提高我们对什么有效、何时有效以及为什么有效的理解。 话虽如此,我们已经听到了许多关于上海排名和 REF 等评估如何影响行为和流程的故事。监测此类评估对发现生态系统学习速度的长期影响将会很有趣。
另一项丰富的研究工作较少关注总体数据,而更多地聚焦于理解个别科学家、发现及项目的细节。同样,我们仅提及数千项可能的研究中的几个代表性方向[117]。例如,有研究探讨何种团队结构有助于重要工作的开展及其原因,如吴凌飞、王大顺和詹姆斯·埃文斯的论文《大团队发展,小团队颠覆科学与技术》 [118]。还有研究关注科学家做出重大发现的年龄逐渐上升的现象及其可能的原因,如本杰明·琼斯的研究[119]。此外,还有对资助项目进行回顾性分析的工作,如卡罗琳·瓦格纳和杰弗里·亚历山大对 NSF 探索性研究小额资助项目的分析[120]。
这一研究方向揭示了科学领域中许多引人注目的描述性事实。这类工作常常暗示着变革的需求。例如,刚刚提到的吴等人论文指出:「小型和大型团队对于繁荣的科学技术生态都是必不可少的,并且为了实现这一点,科学政策应致力于支持不同规模的团队。」另一个例子是,关于年龄与突破性发现之间关系的大量研究,已引起一些资助机构对其受资助者老龄化问题的深切关注,并试图改变这一现状。
将这些工作风格与社会心理学中的复制危机进行对比是很有趣的。在那里,元科学的结果如此强大,以至于它们迫使一个抗拒变革的领域发生了改变。回想一下早期无法从传统资助者那里筹集资金的情况;以及该领域核心人物的攻击,将布莱恩·诺塞克(Brian Nosek)描述为「约翰·阿诺德(John Arnold)的顺从傻瓜」。然而,尽管存在这些阻力,他们似乎有可能彻底改变整个领域的方法论和社会过程。这既需要创业建设,正如前两节所讨论的,也需要极其强大的理论结果。回想一下我们之前讨论中的理论要点:(1)存在一个显著问题,即传统(2015 年前)实践导致了许多明显不可复制的「发现」;(2)改进后的实践确实可以复制。这些结论源于大量的工作——我们提到了一些关键论文,但真正重要的是整个工作体系。总的来说,它们是决定性的元科学结果,强大到足以推动真正的变革。 相比之下,大多数结果——如过去几段中提到的那些——更具描述性,通常记录有趣的事实,但很少能决定性地带来改变,尤其是在会扰乱现有秩序的情况下。
我们感兴趣的愿景是,一种元科学能够常规性地获得足以推动真正变革的成果,即便这些证据来自外部。将这一情境与那些常规获得决定性成果的领域进行比较是有益的。想想相对论,它颠覆了人类对空间与时间、能量与质量的一些最珍视的观念。许多物理学的学生最初对相对论持敌对态度,不喜欢它对他们先入为主的观念造成的冲击。但相对论的证据如此确凿,以至于他们不得不接受一个新的秩序。一旦接受了这一新秩序,它便彻底改变了他们与世界互动的方式。类似地,复制危机提供了一系列理论成果,其力量之强足以引发对旧有过程的信任危机,并促使向新过程的过渡。然而,在元科学领域,至今鲜有其他成果能与之匹敌。大多数成果仅具暗示性,不足以决定性地引发变革。诚然,它们的力量还不足以克服来自强大既得利益者的反对。 是否有可能常规性地发展出足够强大的元科学成果,以推动我们的社会过程发生真正、反直觉的变革,即使这些成果会扰乱现有秩序?
从现在开始,我们将使用「决定性结果」这一术语来表示一种足够强大的结果,它通常能够说服那些最初持敌对态度或对另一种结论有既得利益的人。这并非一个严格或精确的定义,但它确实编码了一个有用的标准,捕捉到了足以推动变革、驱动元科学学习循环中扩展步骤的结果概念。用这种新语言重复上述内容:复制危机的关键结果,整体而言,正是这样一种决定性结果。
值得注意的是,获得决定性成果所需的工作并非仅仅是常规业务。我们将在下一节中对此进行更多讨论,但请考虑开放科学协作的非凡规模:270 人合作数年,复制了 100 项实验。此外,这仅仅是更大努力中的一小部分。已有许多大规模复制研究;对个别可疑研究实践的研究;以及对提议解决方案(如预注册)的研究。这是一个主要协调的工作体系,只有作为一个整体考虑时才具有决定性。开放科学协作远远超出了另一篇优秀论文的规模;但它也仅仅是所需工作的一小部分。在追求对复杂社会系统的深刻理解时,似乎需要如此庞大且细致的工作体系。当然,这些决定性成果仍然需要创业活动才能带来变革。
当今元科学的状况与社会科学许多领域中常见的情形相似。许多社会科学的一个梦想是,它们将有助于指导人类行为,并帮助改进人类制度的构建。例如,心理学或许能帮助人们过上更幸福的生活,成为更好的父母,等等?经济学或许能帮助我们在央行设定利率、住房政策、移民政策、最低工资等方面做出更明智的选择?
这是一个带来了显著成功的奇妙梦想。但也存在挑战。首先是解决问题的内在难度:像「最低工资应该是多少?」这样的问题极其复杂,涉及大量不同的变量。其次,平衡不同群体的利益、价值观和权力是困难的。第三,即使这些困难能够克服,并且你提出了一个极具说服力的答案,仍然存在是否有制度能力来实施这些改变的问题。利用社会科学来推动变革——尤其是当它与某些人感知到的自身利益相冲突时——是极其困难的[121]。
发展经济学家兰特·普里切特讨论了这些问题的另一个反映,他将发展经济学中的项目评估描述为「针对弱者的武器」[122]。也就是说,政治上弱势或不受欢迎的项目往往会受到更严格的评估。在这种观点下,这些评估常常是强权者用来证明他们想要做出的决定的方式。当我们的理论工具薄弱时,政治将凌驾于证据之上。政策企业家们确信自己事业的正义性,会将论文作为武器来达到他们的目的,即使他们对世界的运作方式有误。即使外部人士对世界有重要且正确的新想法,变革也将极其困难。
超越随机对照试验的理论元科学
元科学的一个基本问题是:我们能否开发出能够作为对抗强者的武器,从而在科学的社会过程中实现去中心化的改进[123]?正如我们对社会科学的讨论所表明的,这是一个相当大的挑战!在上述引文中,皮埃尔·阿祖莱提出了一个普遍而广泛的方法论建议:「通过对提议的改革进行前瞻性、随机对照实验。」在本节中,我们将考虑并批评这一想法,并提出一些基于此的建议。
2011 年,Azoulay、Graff Zivin 和 Manso(简称 AGZM)发表的论文《激励与创造力:来自学术生命科学的证据》是这一领域的一个引人注目的原型。非正式地,AGZM 常被描述为测试「基于人」与「基于项目」的资助方式。特别是,它将 HHMI 研究员计划的结果与 NIH 资助进行了比较,前者让科学家自由选择研究方向,而后者则要求科学家为每个新项目寻求批准。AGZM 对这两种方法进行了异常细致的比较,不仅考察了两个项目的产出。问题在于,参与这两个项目的人可能具有不同的背景、兴趣和能力。相反,AGZM 试图进行公平的同类比较,因此 HHMI 计划可以被合理地视为一种干预,而 NIH 则作为对照组。这不是一项随机对照试验(RCT)——目前无法将科学家随机分配到 HHMI 或 NIH。但它类似于 RCT。 AGZM 获得了许多引人注目的结果,包括发现 HHMI 资助的科学家的出版物产出增加了 39%;此外,当关注引用分布前 1% 的论文时,这一增加达到了 96%。这些似乎都暗示着「人,而非项目」是正确的。
AGZM 有许多值得推荐之处,尤其是进行干预和做出公平比较的理念。但它也存在诸多局限性,正如我们将在下文所见。这意味着,按照上述标准,它并非一个决定性的结果。诚然,如果你想相信「人,而非项目」,那么 AGZM 提供了一块遮羞布。但如果你不这么认为,我们怀疑它能否说服任何人改变看法。而决定性证据的作用正在于此:让你相信那些你原本认为不太可能或令人不悦的事情。我们个人更倾向于「人,而非项目」,因此对 AGZM 的结论持同情态度。但这恰恰是值得怀疑的好理由:如果同样的证据类型显示「项目,而非人」,我们会找到理由去怀疑[124]。这就是元科学中决定性结果的试金石:证据是否足够强大,能够推动真正的变革,取代现有的社会过程,尽管有支持该进程的人反对?
在接下来的内容中,我们将简要批评 AGZM 及类似的 RCT 式提案,并就如何获得决定性的元科学结果提出几点观察。我们不会解决如何获得此类结果的普遍问题:这将需要成千上万人几十年的努力。问题难度的一个小指标是,复制危机的决定性结果并非通过 RCT 获得;相反,它们是以定制的方式,针对特定问题取得的。尽管如此,尽管面临挑战,我们仍乐观地认为,进一步的工作将开发出足够强大的方法,能够常规性地提供决定性的元科学结果,从而完成元科学的学习循环。
发现本身是否本质上极其缓慢难以评估?对于任何试图改进科学社会过程的努力,一个常见的反驳是:「这不可能做好,因为理解科学发现的重要性需要很长时间。这是否意味着无法建立像你所说的那种学习反馈循环?」这种说法有一定道理:理解一项发现的重要性确实常常需要很长时间。但这并不意味着我们无法取得进展。这就好比说「人眼只能分辨到几十微米,因此不可能看到大肠杆菌」。科学中的许多挑战——我们预计在元科学中也是如此——在于开发更好的理论和更好的工具,以在噪音中放大信号。开发更好的元科学工具,或许是一种元科学显微镜或时间观测器[125],以帮助我们更好、更快地理解科学工作的重要性,将目前难以辨认的信号放大为有意义的东西,这是一项挑战。 优秀的科学家会凭直觉进行这种评估:挑战在于如何系统地做到同样好甚至更好。话虽如此,这并不是一个具体的提议,我们只是指出,许多人在这里使用的「推理」是一种不合逻辑的推论:「如何做到这一点并不那么明显,因此这是不可能的」。而这完全是错误的:科学的历史在很大程度上是关于学会更好地观察的。
认真研究异常值:支持可能获得诺贝尔奖的研究是个好主意,这并无争议!但当人们研究研究成果时,他们往往关注的是曲线的整体部分,即或多或少典型的结果,而非极端的异常值。在我们之前提到的许多例子中,如团队规模统计、年龄分布、引用总量等,情况确实如此。这是一种基于数据的方法,旨在形成对整体情况的认识。但其中潜藏着一个隐含的张力:没有先验理由表明对曲线主体有益的事物同样对异常结果有益。实际上,通过更好地控制过程来改善典型结果,可能会抑制那些构成异常值的剧烈变化。我们在之前的一篇文章[126]中详细讨论过这一点,该文章比我们在此处更深入地探讨了一些相关问题[127]。思考这一问题的一个简洁图示如下:
作为一个具体例子,我们之前提到 AGZM 将总出版物产出的增加以及前 1% 高被引论文的增加作为衡量标准。虽然前 1% 确实不错,但大多数此类论文仍处于曲线的核心部分,并非真正的异常值。这种评估隐含的假设是,你希望改善曲线的核心部分。但如果异常值实际上主导了发现,那么它们应成为我们试图评估和支持的核心。改善核心部分可能会忽略最重要的内容,导致错误甚至适得其反的结论。
现在,话虽如此,我们也认为考虑这些整体措施是有价值的。但如果不识别和研究异常值,所形成的图景将极不完整。因此,任何认真的评估程序也必须系统地识别最重要的异常值并进行比较。换言之,对不同发现方法的认真比较应结合曲线的主体部分,同时识别并比较异常案例研究。只做其一而不做另一项,在我们看来,是一个可能产生误导的错误。这与一种普遍观点形成对比,即认为基于大数据的研究在某种程度上本质上比少数关于异常值的案例研究「更严肃」。但这是一个轶事可能胜过数据的例子。至少,这些案例研究必须被视为评估过程中的一等参与者,与更多基于数据的方法并列。只有认真对待两者,才能看出主体与异常值之间是否存在以及何时存在紧张关系[128]。
比较不同项目的异常值时,一个挑战在于项目的规模至关重要。一个拥有 100 亿美元预算的项目,理应比一个仅有 1000 万美元预算的项目产生更多极端的异常结果。这使得异常值的比较变得复杂。例如,人们常称赞贝尔实验室做出了多项值得诺贝尔奖的发现。诚然,他们确实卓越非凡。但几十年来,他们的年度研究预算也高达数亿美元(按 2022 年美元计算)[129]。在这样的规模下,他们理应取得非常出色的成果!为了与规模小得多的研究实验室进行公平比较,一个可行的方法是随机选取但规模相当的研究成果子集进行比较。(如何公平地进行这种比较,将是一个很好的研究课题!)一个贴近我们内心的示例是位于旧金山湾区的 Dynamicland 实验室。这是一个卓越且非常独特的独立实验室。但部分原因正是由于其独特性,它有时在资金筹措上遇到困难。我们经常向潜在资助者宣扬其优点。 其中一些人——通常是科技界的富人——观察到,Dynamicland 的成果目前还不及贝尔实验室最杰出的成就,如信息论和晶体管。这是事实。然而,贝尔实验室在任何一年中的资金投入都比 Dynamicland 多出两到三个数量级,并且存在了大半个世纪,而非不到十年。如果 Dynamicland 能在极端案例上与之相提并论,那才令人震惊。但我们预计,如果将 Dynamicland 与贝尔实验室中随机选取的一个规模相当的部门进行比较,Dynamicland 的表现将极为出色。这一点在文章附录[130]中有更详细的量化说明。
对引用的一点半喝彩:在元科学中,有一个陈词滥调是「引用是有限的或不好的,我们对使用它们有疑虑……但我们还是要用,因为¯\_(ツ)_/¯」。一个值得尊敬的例子来自科学引文索引的创始人尤金·加菲尔德,他列举了许多对引用分析的有见地的批评,并评论说[131]:「这些批评都不是没有根据的。它们大多基于引用分析的某些方面,这些方面在使用该技术评估人员时提出了理论或实际问题。那些使用引用数据来评估任何层次的研究表现,特别是个人层次的人,必须理解其微妙之处和局限性。」
但尽管对引用分析的局限性存在诸多担忧,它仍被极其广泛地使用。我们的典型例子 AGZM 就说明了这一点,它依赖于基于引用的临时措施来量化科学价值。虽然这不是他们使用的唯一标准,但却是他们的主要指标。
引用分析之所以如此流行,原因显而易见。引用数据相对容易获取。引用分析易于跨学科应用,能产生清晰的「结果」,带有定量严谨性和可信度的悦目光泽。你可以扩大分析规模,同时无需深入理解科学文献中的基本概念。而且,你可以用相对简单的脚本撰写大量论文。
总的来说,这种引用分析似乎与通过简单最大化球员总身高来选择篮球队球员有许多相同的好处。这并非完全错误。但它也没有认真对待问题,肯定会误导人。引用与科学进步本身并无内在联系;它们更像是进步的副产品,而非进步本身。那些旨在详细理解思想演变的提议常被斥为「不可扩展」。然而,在我们看来,将可扩展性置于理解实际情况之上作为约束条件,似乎有些奇怪。如果你打算大规模地做好某件事,首先在局部范围内做好它是有意义的,即使这种方法看起来并不明显具有可扩展性[132]。幸运的是,我们相信一种互补的方法是可能的:
为科学史喝两声半彩:与引文分析形成对比的是,已经有一个领域在研究科学思想的演变、影响和重要性:那就是科学史。一个很好的例证,也是众多例子之一,就是亚伯拉罕·派斯的工作。年轻时作为杰出的理论物理学家,他在五十多岁时转行成为全职历史学家,撰写了关于阿尔伯特·爱因斯坦和尼尔斯·玻尔的优秀传记,以及粒子物理学的历史。仅举一例,考虑派斯关于爱因斯坦的精彩传记《上帝难以捉摸》[133]。从派斯那里,你学到的是如何思考爱因斯坦的工作。它为何重要?这些思想从何而来?它们后来如何改变了人们的思考方式?它们如何改变了科学和人类文明的进程?他通过信件、论文、书籍和他人的叙述追溯了思想的谱系。通过这种方式,我们既能欣赏到爱因斯坦不断变化的内心理解,也能理解这些理解如何融入当时的集体意识和知识景观之中。 相比之下,引文分析几乎像是行为主义心理学的(一种讽刺),它研究科学的外部形式,但并未深入探讨内在基本思想的演变。只有通过后者,我们才能正确把握理解的变化。这正是科学史的任务,也在一定程度上是科学社会学和科学哲学的任务。
当然,科学史是一个非常活跃的领域。但据我们所知,它的方法通常不被用作我们正在讨论的这类项目比较的基础。原因显而易见:它不具备可扩展性,也不像引文分析那样表面上显得「客观」。但我们相信它更为可靠,能够触及思想的实际重要性。特别是对于理解个别异常发现的重要性,它尤为可取。正如我们之前所说:如果你要学习大规模地做好某件事,首先学会在局部做好它是有意义的,即使这种方法显然不具备可扩展性。因此,我们相信科学史的技术应该在项目比较中发挥核心作用,尤其是在理解异常值时。它可以而且应该成为可扩展分析的基础。引文分析也有其价值,但我们认为它应该是次要的。
当然,一个主要挑战在于科学史拥有长远的后见之明优势。Pais 能够回顾并理解几十年前发生的事情,将严谨的历史研究与对基础理念的深刻理解相结合[134]。但即便具备如此深度的理解,在尘埃尚未落定之时,实时进行此类分析仍更为困难。这无疑是一个挑战,甚至可能是一个内在问题:伟大科学家之所以伟大,部分原因在于他们在选择研究课题时拥有卓越的品味(或在某些情况下,运气)。这种品味的规模化可能本质上就难以实现。尽管如此,我们相信这种方法值得成为任何项目评估方法中的核心要素。
为结构多样性欢呼:作为评估的一般原则,我们相信在社会过程中应强烈倾向于结构多样性。这种结构多样性是科学的核心宝贵资源,它扩大了人类能够成功解决的问题范围。原因在于不同的环境背景能够促成不同类型的工作。在一个环境中容易解决的问题,在另一个环境中可能几乎无法解决;反之亦然。事实上,我们往往无法先验地知道哪种环境最适合攻克一个重要问题。因此,确保多种截然不同的环境可供选择,并让科学家能够在这些环境之间灵活流动至关重要[135]。从这个角度看,结构多样性是一种需要培育和保护而非为了官僚便利或效率这一伪神而统一化的资源。我们需要的是表达出关于如何支持发现的广泛而强有力的理念的多样化环境。在某种意义上,可用环境的多样性反映了我们集体的元科学智慧。 单一文化是创意工作的敌人。
结构多样性有时会遭到反对。我们听到人们将其描述为「太混乱」或「太令人困惑」。当创业计划宣布时,它们往往比现有企业吸引更多的批评性审查。这是一种反复出现的模式:从 Janelia Farm 到 Thiel Fellowship,再到 Santa Fe Institute,以及许多其他例子。我们一再被告知,这些计划「表现不佳」甚至「失败」是「常识」。然而,经过仔细审查后,往往发现这些计划实际上是杰出的成功案例,负面印象并非基于严肃的评估。
一个具有启发性的例子是泰尔奖学金。该计划始于 2010 年,旨在为大约 20 岁的有才华的年轻人提供 10 万美元,让他们辍学并追求雄心勃勃的独立项目。该计划的年度总成本为几百万美元,相当于几项 NIH R01 资助的金额。尽管《纽约时报》、《华尔街日报》、《洛杉矶时报》等知名媒体对其发表了负面报道,前哈佛大学校长劳伦斯·萨默斯甚至称其为「这十年来最误入歧途的慈善行为之一」,但该奖学金已支持了加密经济学、人工智能以及众多初创企业的奠基性工作。我们相信,若以每美元投入的成效来衡量,任何合理的评估都会显示其取得了非凡的成功。当然,与哈佛大学及类似机构的规模相比,泰尔奖学金的预算不过是九牛一毛。
思考这个问题的一种方式是:如果你向哈佛或类似的现有机构捐赠 1000 万美元,那么一个合理的粗略模型是,这笔钱将用于哈佛尚未资助的最佳项目。但哈佛拥有庞大的预算。因此,它将资助哈佛优先列表中较为靠后的项目:那些哈佛认为在其最初的数十亿美元支出中不值得资助的项目。相比之下,在新方向上开拓的初创企业正在尽其所能地推进这些方向。边际收益递减尚未显现。结构多样性可能显得混乱且令人困惑,但它也提供了一个机会,以摆脱边际收益递减的束缚,并促成新型创造性工作的诞生。我们在附录[136]中讨论了实现结构多样性的一些具体挑战。
一个推动变革的元科学加速器
在这背后,你可以想象一个元科学加速器,它可能是一个新组织,也可能是现有组织中一个被高度赋权的部门,不断地将大量想法通过元科学学习循环进行处理:

每次通过核心循环都会提供更多信息。加速器将为成功的试验项目提供扩展支持。它不仅会发布成功的详细事后分析,还会公开失败的情况。加速器将提供深刻理解元科学关键理论思想的导师,并为元科学创业者提供实际支持。此类支持将协助:工具构建、市场营销、品牌建设;公平评估项目,旨在取得决定性的新元科学成果;通过引发危机推动变革;积极推广改进的新方法,并抨击表现不佳的现有做法。加速器可能会倾向于避免承担失败:以盖茨基金会为例,它曾请求进行随机对照试验(RCT)来评估一项教育计划的影响;当结果不如预期时,却试图掩盖[137]。然而,只有坦诚承认失败,社区才能真正从中学习;在此过程中,信誉得以建立。 当然,在管理资助者关系(这通常需要撰写赞美的自我报告)和真正改进科研方式之间存在一种张力。对于这样的加速器来说,后者必须优先于前者,否则它不过是一场空洞的演练。
未涵盖的重要要点
让我们以对三个问题的简要讨论来结束第二部分,这些问题对元科学很重要,但在我们的核心论述中被忽略了。
使用「元科学」无意中使事情变得更糟:存在一种灾难性的未来可能性,即官僚机构利用「元科学」作为杠杆,以证明不断加强控制的合理性。「让我们衡量并改进事物!」是官僚们真诚善意的战斗口号。可以理解的是,管理资助者和研究机构的人——通常是才华横溢、富有想象力的人——会认为他们知道改进事物的正确方法。然而,这些努力通常的实际结果是集中决策权,从而压制了科学界中许多混乱、难以理解的潜在可能性。我们担心未来会有大批元科学家涌现,提出将更多权力集中到中心的「改进」建议,并给科学家们带来越来越大的负担。在一些滥用科学计量学作为测量和控制工具的情况下,我们已经看到了这一点。资本和中央集权可能决定人们的行为方式,但它们对自然的行为方式毫无影响。 正确的应对措施是,对现有组织施加元科学谦逊的期望;并对任何旨在增加现有权力或加重科学家负担的所谓「改进」提议,坚持特别高的证据标准。
对比元科学与宏观科学:有一种观点认为,科学的关键在于政府研发支出占 GDP 的比例;一个国家培养的博士数量;论文数量;引用次数等等。这些指标据称又与 GDP 和生产率增长等衡量标准相关。各国在「优先领域」进行「能力建设」。这是一种将科学视为可买卖商品的「桶装科学」视角。这种宏观视角与我们发展出的视角大相径庭,后者侧重于理解作用机制,并改进具体的社会过程和文化。相比之下,宏观视角通常没有强有力的具体作用机制,除了「更多的科学是好的」以及偶然的临时假设(例如:「人工智能很重要,我们应该加大投资」)。在某种程度上,这两种视角是互补的。但我们也认为,从长远来看,大多数宏观价值很可能是社会过程和文化改善的结果。正是这些改进才能产生仅靠「更多科学」无法实现的质变。
元科学并不决定我们所重视的内容:有些核心问题是元科学无法解答的。比如,比较 NSF、NIH 与 DARPA 的增长速度,或是如何优先考虑多样性、公平性和包容性的努力。这些问题并非纯粹的元科学问题,而是关乎人类认为重要且有价值的事物。它们必然且恰当地涉及政治优先事项,这些事项反映了利益相关者的价值观和判断。元科学能帮助我们理解如何更有效地达成特定期望目标,但它本身无法决定这些目标应当是什么。这一区别与休谟的「实然」与「应然」之分相关。举例来说,你可以启动一个元科学项目,研究如何设计并实现特定的风险分布。随着这些原则和设计理念的发展,它们可被用于更好地实现由我们的价值观和政治优先事项所指引的目标。然而,它们不会决定那些价值观和政治优先事项!在文章的主体部分,我们已忽略了这些问题。 我们预计,实际上,元科学的许多理念可以独立于价值观和利益相关者的利益而发展。但最终,所有这些都必须发挥作用。
科学文化中是否可能实现变革性的改进?
此刻曾是难以想象的未来。——斯图尔特·布兰德
我们刚刚撰写了 30,000 字关于改善科学文化的文章。目的是什么?即使我们能迅速改变科学文化,也许今天的发现生态系统已接近最佳状态?我们只能做出微小的渐进改进,还是有可能实现真正变革性的改进——那些因其新颖性而让前几代科学家感到惊讶或震惊的变化?当然,这个问题超出了我们有信心讨论的范围。但我们忍不住要提出一些推测性的想法。
一个合理的推测是,当今的生态系统已接近最佳状态。按照这种观点,你所听到的任何抱怨,要么是人们在寻求微小的改进,要么是那些误解或表达酸葡萄心理的人。这种立场很容易找到表面上的支持。正如我们在引言中指出的,当今最优秀的科学家正在做着令人惊叹的工作。如果你与这样的人交谈,自然会想:「有可能比这位杰出人物已经运作的方式做得更好吗?显然,所需要的只是扩大培养这类人才的组织规模,并改进我们支持他们的方式。」
但这种观点存在漏洞。即使你承认某些类型的工作在当今体系中得到了极好的支持,这并不意味着没有瓶颈阻碍其他关键类型的工作。从这个角度看,有些研究者拥有特定的典型工作风格——或许是像罗伯特·兰格或乔治·丘奇[138]那样的——这与大学倾向于支持的风格相契合。在这些情况下,他们拥有大型实验室、众多研究生和博士后,源源不断的论文和资助(以及间接费用),处于主流领域的前沿,集销售、管理、领导力和科学于一体。这非常棒,我们很高兴大学支持这一点。但或许还有其他目前非典型的工作风格——比如卡塔琳·卡里科、斯蒂芬·威斯纳或道格拉斯·普拉舍的风格——这些风格与当今的机构并不那么契合。而这些工作风格可能正是推动关键科学工作的关键,但在现有生态系统中几乎无法实现。也就是说,你可以堆积任意多的典型研究者,但他们仍然不会去做非典型的工作;这是我们发现能力的一个瓶颈。
在这种观点下,新社会过程和新文化的一个好处是,它们能够促成在现有环境中难以实现的新型工作。而且,这些新型工作可能在推动科学进步中发挥不可替代的作用。仅举一例,我们建议加快新领域建立的速度。这一建议隐含了三个观点:(1)领域建立通常需要那些在当今发现生态系统中难以支持的工作类型;(2)这些新型工作可以通过新型环境得以实现;(3)科学目前正受限于领域建立,因此促成领域建立的工作将释放巨大的潜在发现潜力。通过这种方式,创造一个新的文化生态位可以对科学产生变革性影响。类似的论点也适用于之前概述的许多其他想法。
当然,新环境和新社会过程不仅仅会立即改变可能进行的工作类型。长远来看,它们可能会改变投身科学的人群;他们在生命历程中的成长与变化;他们所拥有的集体规范、共享假设和工具;以及传递专业知识、问题和资源给个人的网络结构。这进而改变了他们所面临的问题流、交流的人群类型、可用的资源和专业知识,以及塑造他们成长的价值观和激励因素。实际上,它潜在地改变了成为科学家的整个认知和情感体验。正是这些长期的变化,使得「同一个人」能够从事截然不同的工作类型,包括那些在今天看来极为困难的工作。这就是为什么我们相信文化转变可能彻底改变科学。
值得将这一点与一种常见的浪漫理想进行对比,这种理想由范内瓦·布什(Vannevar Bush)令人难忘地表达出来,即科学最好通过「自由智力的自由发挥」来完成。或者,正如许多人对我们说的那样:「顶尖地方的人才难道不能随心所欲吗?为什么不更多地这样做呢?让我们尽量减少繁文缛节,减少行政管理和申请资助的工作量,让路给他们!」这些情感的不同版本有时也会出现在「科学出了什么问题以及如何修复」这类讨论中。这些想法有其价值,但资源限制意味着「谁的智力能够自由发挥」这一问题变得无处不在。毕竟,这句话源自被认为是美国国家科学基金会起源的文件!因此,尽管「自由智力的自由发挥」听起来很吸引人,但它通常难以实现。更重要的是,这些想法未能解决文化和环境的关键作用。这是一种个人主义哲学,而发现本质上是一种网络化的努力[139]。改变文化之所以重要,并不是因为它消除了科学家生活中的不便。 这很重要,因为它改变了科学家自身及其网络结构,从而改变并扩大了可完成的工作类型[140]。
在这篇文章中,我们尝试窥视并塑造未来。这只是一个草图,其中的思想和语言需要进一步发展。它需要通过经验来改进。也有可能对这一愿景提出反对意见。科学的社会过程具有难以置信的惯性:就像让一艘超级油轮掉头一样。很容易得出结论认为情况难以解决。然而,坚持是有价值的:科学的文化和社会过程是人类文明的瑰宝。我们有机会使它们迅速自我改进,并将元科学发展成为推动人类理解世界方式的引擎。正是人类改善发现生态系统的能力,将最终决定科学的长期健康发展。
致谢
MN 的工作得到了 Astera Institute 的支持。KQ 的工作得到了 Generally Intelligent 的支持。我们的思想是在与数百人长达数十年的对话中形成的。我们向他们所有人表示感谢。 特别感谢:Scott Aaronson、Dorit Aharonov、Dave Albert、Josh Albrecht、Sam Altman、Marc Andreessen、Nadia Asparouhova、Pierre Azoulay、Nick Beckstead、Juan Benet、Alexander Berger、Nick Bloom、Ed Boyden、Adam Brown、Stuart Buck、Howard Burton、Carl Caves、David Chapman、Jennifer Chayes、Seemay Chou、Ike Chuang、Matt Clancy、Patrick Collison、Tyler Cowen、Dom Cummings、Laura Deming、David Deutsch、Artur Ekert、Chris Fuchs、Julia Galef、Anastasia Gamick、Danny Goroff、Ilan Gur、Gwern、Melissa Hagemann、Celine Halioua、Timo Hannay、Robin Hanson、Demis Hassabis、Sabine Hossenfelder、Anton Howes、Elanor Huntington、Tim Hwang、Heather Joseph、Tom Kalil、Alan Kay、Julia Kempe、Ottoline Leyser、Adam Marblestone、Andy Matuschak、Jed McCaleb、Gerard Milburn、Evan Miyazono、Cameron Neylon、Brian Nosek、Chris Olah、Catherine Olsson、Tim O'Reilly、James Phillips、Ben Reinhardt、José Luis Ricón、Gerry Rubin、Halina Rubinsztein-Dunlop、Terry Rudolph、Grant Sanderson、Ben Schumacher、David Siddle、Star Simpson、Lee Smolin、Rob Spekkens、David Spergel、Peter Suber、Umesh Vazirani、Bret Victor、Marc Warner、Mike Webb、Eric Weinstein、Andrew White、John Wilbanks 和 Heidi Williams。 对于论文草稿的反馈,我们感谢:Kat Baney、David Chapman、David Lang、Evan Miyazono、Brian Nosek 和 Janelle Tam。特别感谢:Patrick Collison,MN 曾与其合作过一个前期项目;Grant Sanderson,最初鼓励我们承担这个项目;David Chapman,在克服一个关键困难时给予的帮助和鼓励,以及多次慷慨的交谈;Brian Nosek,关于开放科学中心起源的讨论。导航图标由 Freepik-Flaticon 创建,目录得益于 Michael Keenan 提供的代码,并改编自 Jim Babcock。最后,感谢 Twitter 这个奇妙、恼人、集体天才与集体粗鲁并存的存在——它既是历史上最能干、最烦人、最分散注意力的研究助手,也是研究刺激剂。
引用信息
如需在学术场合引用,请将此作品引用为:
Michael Nielsen and Kanjun Qiu, "A Vision of Metascience: An Engine of Improvement for the Social Processes of Science",https://scienceplusplus.org/metascience/index.html, San Francisco (2022).
附录
其他改变科学的机会:人工智能、印度、中国、太空殖民和智能增强
在这篇文章中,我们忽略了一些外部因素,这些因素可能最终与科学的未来进展高度相关。现在,我们将简要转向这些因素,以及它们与元科学的关系。
或许最时髦的是人工智能(AI)。一些消息灵通的人自信地认为 AI 将很快改变科学(和世界),而另一些人则认为这没什么大不了的。DeepMind 在蛋白质结构预测上的最新成功令人印象深刻:我们人类现在正从我们的机器中学到很多关于蛋白质的知识。尽管这「仅仅」是一个(重要的)问题,但人们不禁要问:这种突破会变得司空见惯吗?AI 系统是否会在科学中推动越来越多的进步?它们会推动自身的改进吗[141]?它们最终会改变科学发现的引擎吗?AI 公司 OpenAI 的首席科学家 Ilya Sutskever 在推特上写道:「在未来,科学的唯一目的将是构建 AGI[人工通用智能]。」这一说法荒谬至极——那些生活因前 AGI 科学而改善的数十亿人不可能同意——或许这仅仅是为了他的公司做营销。但其中可能有一丝真理。
就我们的目的而言,关键在于如果人工智能确实彻底改变了科学,那么今天对科学社会过程的修改可能对长远影响不大。当然,这一论点可用于支持在中期未来只考虑人工智能,而不考虑其他任何事物。这是将人工智能视为思维终结的陈词滥调。我们知道有些人持这种观点。但我们相信,关于这一点存在足够的不确定性,因此改进科学的社会过程仍然是一个相当有趣的问题。
人工智能并非唯一可能引发新科学革命的事件。印度和中国正在迅速发展其在整个发现生态系统中的角色。在此过程中,他们可能会选择主要复制美国和欧洲的体制方法。但我们希望他们能抓住机会,与众不同,甚至可能远超现有机构。这需要想象力、洞察力和勇气;我们希望元科学能贡献有益的想法。这对这些国家来说是一个巨大的机遇,我们也希望,对人类亦是如此[142]。
另一个具有潜在变革性的机遇是人类对太空的殖民。这与印度和中国为科学提供的机遇相似,但最终规模更大(也更具挑战性)。太空殖民才刚刚起步,但在下个世纪及之后的几个世纪里,其步伐似乎会加快。这将带来巨大的挑战,同时也为试验新的制度理念提供了难以置信的机遇。再次强调:我们希望我们的后代有勇气和创造力去重新构想我们的制度。鉴于殖民太空所需的勇气和想象力,这似乎很有可能!我们期待并希望一个蓬勃发展的元科学领域能为任何此类重新构想做出贡献。
最后,存在智能增强新技术的可能性。人类现有的智能增强技术——语言、文字、字母、数学、印刷术、早期计算机——每一项都改变了人类的思维和发现方式。我们是否会开发出新的智能增强技术,从而促成进一步的此类变革[143]?与人工智能一样,很难说这种变革如何与元科学相关联。但就元科学能够致力于发现普遍真理而言,无论未来如何,它都将为科学的未来提供指导。
规模带来的麻烦
正如我们在文章正文中指出的,评估和比较新颖社会过程的一个主要挑战在于,试验的规模可能以难以推理的方式产生影响。特别是,由异常值主导的过程可能会显示出试验规模与结果之间令人惊讶的关系。例如,这可能导致你错误地得出结论,认为试验过程的表现不如现有过程,仅仅因为现有过程拥有更大的规模。
要理解正在发生的情况,有助于思考我们通常生活的(非异常值主导的)世界。如果你在车里加十倍燃料,你会期望它能行驶大约十倍的距离。如果你种植十倍数量的作物,你会期望收获大约十倍的产量。当然,在这两种情况下都有例外——也许部分较大的土地不太适合种植,导致部分作物歉收。但基本的直觉是正确的,而且推理变化相对简单。
这在你进行比较时会产生后果。假设你正在比较两辆汽车的燃油效率,并被告知其中一辆汽车每 5 加仑汽油能行驶 100 英里,而另一辆汽车每 50 加仑汽油能行驶 1200 英里。显然,你会得出结论,第二辆汽车更省油!异常值主导过程的奇怪之处在于,这种推理可能完全失效,并且失效的方式难以推理。
有一个很好的玩具模型可以用来说明这一点。这个模型并不现实——这不是它的目的。相反,目的是为了说明一个我们认为在更普遍情况下存在的棘手问题。本附录的目的是展示这个玩具模型,以帮助读者建立直觉。
假设我们有两种科学资助方法,分别称为 C(对照组,代表现有方法)和 I (干预组,代表新方法)。基本思路是假设我们有某种量化发现重要性的方式,且在此重要性度量下, C 和 I 都具有重尾特性,但:干预组的尾更重(即更有可能产生巨大的异常值),而在典型结果上,干预组的表现略逊于对照组。从定性角度看,这些分布可描绘为:

如果干预在典型行为中表现更差,那么对于一个小规模试验,干预I将显得比对照 C 更差,因为样本数量少得多意味着II从重尾性中获益的机会大大减少。这并不是说现有方法 C 实际上更好。而是它拥有巨大的规模,这意味着它能够从偶尔的异常结果中获益。相比之下,干预 I 的获益机会相对较少;如果它拥有相似的规模,异常值将比 C 更为显著。换句话说:在重尾系统中,你获得的「射门次数」至关重要。
当然,科学发现并非可互换的,也无法以这种方式量化。但这作为一个玩具模型或直觉泵,用以说明潜在问题,仍然是有用的。特别是,很容易构建具有上述特性的分布的具体例子。一个例子是,如果 C 是一个对数正态分布,参数为 μ=0 和 σ=1.4;是一个幂律分布,形状参数为 α=2.3,最小值为 0。我们进行了重复的计算机模拟[144],从干预中抽取 100 次,从对照组中抽取 100,000 次。当我们进行了 1,000 次这样的模拟时,发现大约 63% 的情况下:(1)干预的中位数低于对照组;(2)试验干预的平均值也低于对照组;但(3)如果试验干预扩展到与对照组相同的样本数量,实际上其平均值更高,由于异常值出现的机会更多,平均值显著偏移。此外,这种偏移往往相当显著,试验扩展后平均增加了 39%。 规模确实至关重要,以至于如果不考虑规模,比较很可能会产生严重的误导。如何最好地做到这一点,我们将其作为一个开放性问题留待解决。
当然,这个玩具模型是人为设计的,具有人工性质。但其核心观点是清晰的。事实上,它甚至似乎合理地描述了某些历史情境,如文中讨论的贝尔实验室的情况。正如文中所述,贝尔实验室的理想化通常基于少数极其重要的成果:晶体管、信息论、超导理论等。但贝尔实验室规模庞大,很难将这些成功与其规模意味着他们能够进行大量尝试的事实分开。有些尝试如香农提出信息论那样引人注目。但大多数尝试被合理地遗忘了。这使得将它们与规模小得多的机构进行比较变得棘手。
实现结构多样性面临的挑战
在论文的主体部分,我们提倡科学文化中的结构多样性。这伴随着诸多挑战,在本附录中,我们将描述其中几个。最广泛地讲,存在一个组合构建问题:哪些调控机制应设定可用环境的组合?
投资组合构建问题包含许多子问题,其中之一是无限制增长问题。为了说明这一问题,让我们回到聚焦研究组织(FROs)的例子。FROs 的共同创立者 Adam Marblestone 告诉我们,他经常听到这样的批评:「并非所有事情都应成为 FRO」。有时,即使他反复强调「并非所有事情都应成为 FRO」,仍会听到这样的声音。人们为何担忧显而易见。FROs 刚刚起步,最初几个 FRO 可能会进展不顺,这一理念可能就此沉没。但也有可能,首批 FRO 中会有一个取得巨大成功。突然间,关于这一模式的赞誉文章可能会大量涌现。其他资助者可能开始启动类似 FRO 的项目。这可能导致更多文章和更多类似 FRO 的项目出现。在这种情况下:最终规模由什么决定?资助者是否会变得热衷于 FRO?FROs 满足了他们的多个需求:高度清晰、目标导向、可衡量、有吸引人的故事和视觉效果。这些都是资助者所喜爱的;从许多方面来看,FROs 对资助者而言,是一种过于自然以至于想要扩大规模的事物! 或许我们会达到一种状态,一些科学家开始抱怨一切都是 FROs、FROs、FROs,这是获得资助的唯一途径。原本健康的增长变成了恶性膨胀。或者,我们是否会达到另一种情况,FROs 成为多样化异质文化中的一个组成部分,在适当的时候使用,而不会将其他工作强行塞入这一模式?是什么决定了这个尺度?
同样的故事可以在许多新社会过程的构想中重复。我们非常喜欢注册报告,但如果它们成为强制性的,那将是一个严重的错误。更具探索性和推测性的工作也极为重要。像「按方差资助」和「按抽签资助」这样的想法可能比传统方法有显著优势;但它们不应完全取代传统方法。所有这些情况下的问题在于缺乏良好的自我调节机制。很容易最终形成研究的单一文化,而更健康的状态应是多种方法共存,其相对规模由某种机制调节,以确保科学的持续健康发展。
根本问题是:什么为任何此类项目设定了规模?是时尚、善变的观念、政治和高度清晰的故事吗?还是科学贡献,以及该项目作为更广泛生态系统一部分的价值?目前,几乎完全是前者,而后者只是偶然。当然,时尚、善变的观念和政治往往不会以这样的形式出现。它们表现为《自然》、《科学》和《纽约时报》上善意人士的热情文章。它们表现为热情洋溢、才华横溢的新机构创始人,带着他们对如何改进事物的个人见解。这对于生成新的社会过程非常有利,但对于评估来说却是一个糟糕的基础[145]。最终结果是一种自然的单一文化,一种寡头政治,其中某些东西要么过多,要么远远不足。这对科学来说是一场灾难。
遗憾的是,我们对这些问题没有很好的答案!只是总结一下我们所看到的问题:存在投资组合构建问题,以及三个相关的子问题。(1)无界增长问题:为过程的最终规模寻找一个健康的调节器;(2)元科学对齐问题:过程的最终规模是由对人类和科学的价值决定的,还是由时尚和政治决定的;(3)一个我们尚未明确提及的问题,即灭绝问题:如何缩减运作不佳的过程,这是一种科学的创造性破坏。这是当前科学做得极其糟糕的地方;结果是长期存在的机构、社区和过程排挤了新进入者[146]。可能对于这些问题中的任何一个都没有完美或接近完美的答案。但我们相信,通过富有想象力的理论工作和机制设计,比我们今天拥有的更好的答案是可能的。与此同时,即使没有解决这些全球性的投资组合构建问题,似乎也值得更局部地关注,识别出值得被放大的新过程。
脚注
略
Thoughts Memo 汉化组译制
感谢主要译者 GPT-4o,校对 Jarrett Ye
原文:A Vision of Metascience
作者:Michael Nielsen 和 Kanjun Qiu
发布日期:2022 年 10 月 18 日