大学学位的末路

原文:The Death of the University Degree - by Carl Hendrick

认知投降与「大规模知识造假」

作者:Carl Hendrick

2026 年 5 月 24 日

133 年来,普林斯顿大学一直奉行一项荣誉准则,允许学生在无人监督的情况下参加考试,只需在答卷上写下一句简单的承诺,确认自己没有作弊。2026 年 5 月,教师投票决定从 2026 年夏季开始,终止这一传统。所有线下考试都将要求监考。正如 Rose Horowitch 在 The Atlantic 中指出的那样,这项荣誉准则挺过了两次世界大战、20 世纪 60 年代的动荡、水门事件后的幻灭,甚至也挺过了搜索引擎和 SparkNotes 的兴起,却没能挺过 ChatGPT。Cornell 的一位教授采取了不同的应对方式:实行口试,让学生必须面对面解释概念。这两所机构都认识到,支撑无人监督评估的社会契约已经崩塌。当完成任务不再意味着真正学习时,所有建立在这一假设之上的传统都必须被重新审视。​

img

这是我如今经常问自己的一个问题:还有谁会认真相信,2026 年获得的学位,与 2016 年获得的学位,或者说与 ChatGPT 于 2023 年出现之前任何时候获得的学位,是同一种诊断工具吗?上周五在 Hay Festival 上,我再次想起了这个问题。当时,小说家兼 Oxford 研究员 Katherine Rundell 谈到一项令人沮丧的调查,那是她的一位同事向她讲述的,内容是他所在大学学生的阅读情况。过去,70% 的学生会完成一半课程阅读任务;如今,只有 20% 的学生完成 10% 的课程阅读任务。

她称正在发生的事情是「大规模知识造假」,并指责大学举起了「白旗」:只要在脚注中注明,就把使用 AI 重新归类为合法的学术行为。「现在已经有可能,」她说,「在没有读过一本书的情况下,写出一篇关于这本书的论文。」本周,格拉斯哥大学宣布恢复线下考试,同一项 Times 调查还报道称,罗素大学集团本科生因滥用 AI 而受到正式处分的人数,在一个学年内增加了两倍,从大约 700 人增至 2,000 多人。那么,在 2026 年,作为衡量智力价值的工具,学位究竟还有什么价值?

按照 Spence 早年的说法,大学学位作为资质证明的信号价值,依赖于一种分离均衡:获得学位是有成本的,而且对那些不具备相应底层能力的人来说,成本更高。如果生产条件已经改变,那么它所承载的信号也已经改变。本科生在攻读学位期间完成的工作——课程作业、习题集、居家论文、无人监督的考试准备——恰恰是最容易受到 AI 替代影响的部分。2016 年的毕业生是在一种制度下积累知识的,在那种制度中,完成任务与掌握材料紧密相连。2026 年的毕业生在一定程度上积累的是一串任务完成的记录,而这些任务与学习之间的关联性,如今已经成为一个还没有人弄清楚答案的问题。

雇主已经注意到了这一点,劳动力市场数据也开始跟上。Alan Milburn 为英国政府撰写的中期评估报告 于本周发布,报告发现,有 946,000 名 16 至 24 岁的年轻人既不在接受教育,也没有就业或参加培训。其中超过一半从未工作过。青年失业率达到 16.2%,为 11 年来的最高水平。他们当中有数千人拥有大学学位。Milburn 将问题归因于智能手机和心理健康,认为这是被多年刷屏重新塑造的「卧室一代」。他说得并没有错,但这并不是完整的故事。人工智能是雪上加霜的另一根钳:学生的学位越来越多地由他们并未亲自完成的作业构成,而他们进入劳动力市场后,却发现市场已经开始对他们的证书不屑一顾。一位纽约资深金融家告诉《金融时报》的 Gillian Tett,他的公司现在更倾向于筛选人文专业的学生,而不是「AI 原住民」式的 STEM 毕业生,理由是后者「思想肤浅得令人担忧」。

但难道过去不一直都有作弊的学生吗?如今,同一届学生内部的差异也已经大不相同。过去当然也有混日子的学生,但这种混日子的上限由完成作业的其他途径的成本决定的。而现在,这个上限已经高得多,而且仅凭成绩单,根本无法判断某位毕业生处在这条线的哪一侧。学位证书已经无法可靠地区分真正完成了学习任务的学生和没有完成的学生,尤其是在 AI 最容易替代人的那些维度上。

更快完成,更少学习

攻读学位的核心组成部分之一,尤其在人文学科中,是课程论文或项目。我其实非常喜欢这一点。我对自己去伦敦参议院图书馆,花上一整天阅读某个特定主题的一手文本和二手研究,顺着一个脚注读到另一位作者,又顺着那位作者读到第三位作者的经历,有着非常美好的回忆。在这个过程中,我不断积累那些作业并不严格要求、但问题本身似乎需要的背景知识。这种阅读并不高效。从大多数标准来看,它甚至是浪费:好几个小时都花在追踪那些最终与我本该写的论文无关的论点上;好几个小时都花在笔记本里同几十年前就已停止发表作品的批评家争辩。但就在这种游荡之中,一个想法的轮廓会慢慢形成,而且通常并不是我一开始打算寻找的那个想法。论文是最终的成品,但它所构建的论证却是在探索的过程中逐渐形成的。

课程作业这一代理指标长期以来一直有效,部分原因在于,通往完成任务的替代路径非常狭窄。学生可以抄朋友的,可以剽窃,甚至可以花钱买论文,但每一种方式都有摩擦成本,也有相当可识别的痕迹。这个信号在边缘处有噪音,但从更广泛的用途来看,大体上是可靠的。作业完成情况与学习效果之间的关系足够稳定,我们便以此为基础构建了一整套评估体系。

然而,Sina Rismanchian 及其同事的一篇新预印本论文,基于一项跨越十年、涵盖 320 万次 ALEKS 学习互动的面板数据,显示这一代理指标如今已经失灵。论文标题几乎已经把意思说得再直白不过:更快完成,更少学习。论文显示,自 ChatGPT 于 2022 年底发布以来,大学生花在容易受 AI 影响的文字题上的时间下降了约 27%,高中生则下降了约 31%。

关键在于,在限制 AI 访问的监考条件下,这种差异完全消失。当这些学生随后接受测试,检验他们据称学到的内容时,他们答对的比例下降了 25%。与此同时,在无人监考的评估中,成绩却显著上升。模式显而易见:学生正在使用 AI 生成答案,平台记录的是任务完成,而持久的知识正在消逝。

此前两项随机试验在更严格的实验室条件下得出了同样结论。Bastani 及其同事 在一所 Turkish 高中开展了一项实地实验:在数学练习中使用 GPT-4,使有辅助条件下的表现提高了 48%,但在无辅助考试中,成绩相较对照组下降了 17%。Barcaui 针对本科生开展的随机对照试验也呈现出同样形态:学习 45 天后进行的一次突击保持测试中,传统条件下的正确率为 68.5%,ChatGPT 条件下为 57.5%(d = 0.68),而且在调整任务时间后,这一差距仍然存在。Rismanchian 的贡献并不在于发现了这种效应,而在于证明这种实验室模式如今已经在现实场域中运行,并且规模达到数百万学生、持续多年之久。

本月发表于 Science 的另一项研究记录了这种现象的规模。Kizilcec、Chirikov 和 Smirnov 调查了美国 20 所研究型大学的 95,000 多名学生,发现 9% 的学生承认使用生成式 AI 作弊;在每天使用 AI 的学生中,这一比例上升到四分之一以上。这些数字来自自我报告,并通过一种旨在保护受访者的列表随机化方法收集;真实比例几乎肯定更高。当四分之一的重度用户正在把 AI 生成的作业当作自己的成果提交时,Rismanchian 团队所识别出的行为信号污染就不再只是理论上的担忧。它已经成为美国高等教育中的基本状态。

认知投降,而非认知卸载

我经常听到一种说法:AI 不会改变太多,我们以前也在计算器和互联网身上见过类似情况。但学生使用生成式 AI 的方式,与他们使用计算器、电子表格或搜索引擎的方式,在性质上完全不同。经典的认知卸载,是把算术这类定义明确的子任务交给计算器完成,但推理过程仍然掌握在学习者手中。用计算器完成乘法的学生,卸载的是算术运算,但仍然在构建解题策略、评估结果,并将其与既有知识整合起来;这正是能够产生持久保持的主动学习。

作弊者至少还知道那里存在一个知识领域。用 Rumsfeld 式的话说,他们知道自己不知道什么。对我来说,更糟糕的想法是,学生将「甚至不知道自己不知道什么」。一个学生把一道文字题复制到聊天机器人里,再把返回的解答粘贴出来,就绕过了整个元认知过程。一篇近期论文将这种模式称为「认知投降」:用户以极少审视就把 AI 生成的输出采纳为自己的答案,在这个过程中,用户放弃了对问题解决的认知控制,而不仅仅是把一个离散的子任务委托出去。在人口规模上记录到的行为特征——选择性出现、逐渐增长、对监督敏感、随年龄分层、在学生拥有自主权的场景中出现而在没有自主权的场景中消失——正是认知投降在数百万次互动中运作时所会预测的样子。

Fan 及其同事将其背后的倾向称为元认知懒惰。在他们的随机研究中,使用 ChatGPT 写论文的学生在任务过程中写出了更好的论文,但在知识增长或迁移方面没有优势,而过程数据表明,他们的评价和定向行为明显更少。投降命名的是行为;懒惰命名的是产生这种行为的倾向。二者是在不同层面上描述同一种现象。

其下游后果就是 Barcaui 所称的「借来的能力」。AI 提供结构、词汇和推理支架,在学习过程中膨胀了掌握感,却没有通过提取练习或学习者自行生成的阐释来强化记忆痕迹。即便是有经验的 AI 用户,在巴西那项试验中也没有表现出更好的保持效果;熟悉工具并没有转化为更有效的学习使用方式。学生把 AI 的流畅表达误认为自己的理解,这种元认知盲区使他们无法意识到辅助工具正在损害他们的学习 。

掌握的错觉

那么,聊天机器人会如何影响学生自认为的学习方式?我认为,元认知维度在这里非常重要。在 Turkish 和 Brazilian 两项试验中,学生都报告说自己相信学得很有效,即便客观测量显示情况正好相反。在 Turkish 试验中,学生对考试表现和学习效果的自我报告感知「过于乐观」。换句话说,处在无指导 GPT 条件下的学生认为自己学得和对照组一样多,尽管他们在实际考试中的表现低了 17%。这种感知学习与实际学习之间的错位,也曾在其他教育场景中被观察到,但生成式 AI 似乎强化了这种错位。

这里正在发生的是,在练习阶段,学生感觉自己有能力,因为他们正在产出正确答案。AI 承担了认知劳动,但学生把结果体验为自己的成就。一旦工具被移除,这种错觉就会消失。但到那时,真正学习的机会已经错过了。

这对自适应学习系统具有直接影响。像 ALEKS 这样的平台会基于学生回答反映真实认知努力的假设来校准其掌握程度评估。当学生使用 AI 绕过这一过程时,平台的诊断推断就会变得不可靠;系统可能会把学生实际上并不具备的知识计入掌握成绩。随机分配题目的记忆保持率累计下降 25%,正是这种结构性改变的直接后果。

监考悖论

教育科技之所以耗资巨大却屡屡失败,其中一个原因在于人脑的一个基本特征:我们并不想费力思考,通常只有在条件合适的时候才会这样做。在课堂里,这通常意味着教师需要监督学生的认知活动和注意力。Doug Lemov 将其称为 「被关注」;指的是教师有意识地巡视课堂,与学生进行眼神交流,检查作业,让每个学生都感受到他们的努力是被认可和重视的。这并非为了监督学生是否服从,而是为了确保他们积极参与认知活动。当学生知道自己的思考过程被关注时,他们会更加努力、坚持更久、思考得更深入。

大多数教育技术完全消除了这一信号。一个学生独自一人对着屏幕 ,无人监督,在晚上十一点埋头苦读,正处在 Rismanchian 研究表明学习效率崩溃的典型情况。学生独自面对屏幕 ,没有老师在旁走动,也没有「被看到在看」来创造需要集中精力思考所需的条件。而这项新研究中一个非常有意思的发现,是它揭示了监考如何作为这种现场存在的替代物发挥作用。

在学习阶段花更少时间做文字题的学生(因为他们把题目外包给了 AI),在之后接受监考条件下测试相同内容时,表现反而更差。同样的评估方法应用于非监考条件下的知识保持情况 ,则得出相反的结果:表面上的表现有所提升。只有一种机制可以解释这种逆转:评估阶段的 AI 辅助掩盖了学生持久知识的真实下降。

这种效应还随年龄而扩大。大学生下降幅度最大,高中生几乎同样明显,初中生下降较小但仍显著,小学生则完全没有下降。这并不是因为年幼儿童更加高尚;而是因为他们在直接监督下完成更多作业,在有成年人能够看到屏幕的环境中学习。这种年龄梯度与数十年来学术诚信研究记录的生成式 AI 出现之前的作弊率完全吻合。AI 并没有发明作弊的动机;它只是把作弊所需付出的努力成本降到了近乎为零。

吊诡的是,解决这个由 AI 创造的问题,办法也可能来自 AI。在 Alpha School,开发者开创了一套 AI 监考平台,能够大规模创造促成学习的约束条件。该系统不仅监测使用聊天机器人等被禁止行为,也监测分心以及认知投入模式,例如任务时间、延迟,并追踪学生究竟是在真正思考问题,还是在绕过这种努力。它试图通过算法观察,恢复课堂现场自然提供的责任结构。去年看到它实际运行改变了我的看法。我原本以为,大规模有效学习需要传统课堂;Alpha 的系统则提出了一个可信的替代方案。

一场无法取胜的军备竞赛?​

Hollis Robbins她的文章中提出,在 AI 时代,大学必须聚焦于超出 AI 能力范围的人类专业能力的「最后一公里」。不过,实际情况似乎并非如此:学生们甚至都未能触及知识的第一公里。当本科生把学位所需的基础认知工作外包给聊天机器人时,他们就不会建立起任何「最后一公里」赖以存在的底层基础。数据所揭示的危机,本质上是一种架构上的问题。因为过去我们相信这些成果是由某种特定的认知活动产生的,所以才认为这些成果是可靠的。但现在这种信任已经不再成立,而我们在这种信任基础上构建的架构也正在逐渐崩溃。

眼下有两种回应立即浮现出来,但二者都不充分。第一种是设计 AI 不能替你完成的任务:图形操作、交互式模拟、依赖视觉空间结构的多模态推理。但今天我们认证为抗 AI 的每一项任务,都只是暂时的,都在由实验室发布时间表设定的倒计时中。最终,我们不得不将真正的认知工作定义为那些最新的模型还无法完成的工作,而下次当新的模型能够完成这些工作时,我们又会重新定义它们。这根本不是编写课程的正确方式。第二种是退回到有监考、有时间限制、有人类观察的评估中,只有在这种条件下,行为信号才能被准确捕捉到。但普遍监考既不现实,也成本高昂,而且对资源不足的机构打击最重。这种评价方式只是一种测量手段,而非学习手段:它只能告诉我们学习是否发生了,却几乎无助于促成学习发生。

第三种回应最常被忽视,也几乎肯定是最重要的,因为它根本不参与这场军备竞赛。如果问题在于学生在学习时身旁坐着一个 AI,于是跳过了认知工作,那么答案就不是管制 AI,也不是重新设计任务,而是改变 AI 进入认知过程的时机。Wong 和 Qiu 测试了一种「先思考,后用 ChatGPT」的制度,在这种制度中,学生必须先生成自己的解法,然后才被允许咨询模型。在有辅助任务中,这一组没有显示出优势。而在随后撤掉模型的迁移任务中,自由使用 AI 的学生退回到了无辅助基线水平,而先思考组的表现超过了所有人,包括那些从头到尾都独自完成学习的学生。这个教学启示几乎简单到令人难堪。AI 如果在认知工作发生之前被引入,就会阻止这种工作发生;AI 如果在认知工作已经开始之后被引入,就有机会延展它,而不是取代它。关键是顺序,而不是禁用;而这一点几乎被普遍忽视。

知识本身的价值

但坦率地说,所有这些都暗示了一种关于教育的交易性观念,而这让我感到沮丧。在较早的观念中,学位的意义从来不是那张证书。它的意义是心智的缓慢培育,而证书只是恰好代表了这一点。Newman 的「大学的理想」*、von Humboldt 的「教育」、战后自由文科教育的共识:所有这些观念都基于这样一个假设,即高等教育的价值在于在这个过程中所获得的知识,而文凭只不过是一种内在转变的副产品而已。

但当学习根本没有发生时,这种辩护就崩塌了。当学生离开大学时背负 50,000 英镑债务,面对没有工作的前景,手里攥着一张市场已经开始贬值的证书时,这种辩护就变得几乎无法维系。为知识本身而学习,是一种奢侈,只有那些能够承担成本而不期待回报的人才负担得起。对其他所有人来说——而这才是大多数人——学位一直都是一场赌注:现在牺牲时间和金钱,换取未来能够打开大门的的资格。如果这种资格无法实现,那么赌注就彻底失败了。

然而,我宁愿做出这种辩护。这是我相信的那一种。但我(以及我这一代人)上大学时,并不需要每年支付 9,000 英镑,去换取一种现代学生事实上不必经历的内在转化,再凭借这种转化所产生的文件,进入一个已经不再信任这份文件的劳动力市场。

破裂的契约,以及我告诉女儿们的话

最深的讽刺在于,我们拥有能够让学习更有效的工具。对我们许多人来说,AI 正在以一种我们从未想过的方式增强学习。结构化的 AI 支架可以扩展人类的认知能力,而不必取代它。技术本身并非天然具有破坏性。但我们正在以绕过那些让学习变得持久的认知过程的方式部署它。

Milburn 报告关注的是青春期的智能手机和社交媒体。但它所识别出的机制——形成于成长关键期、并持续进入成年期的认知和行为模式——直接指向了生成式 AI 的问题。如果仅仅是智能手机就能够重塑一代人持续注意和独立解决问题的能力,那么当同一代人在大学岁月里,把那些构建这些能力所需的费力思考外包给 ChatGPT 时,又会发生什么?

我经常思考这个问题,因为我有三个女儿。她们成长在一个已经改变的世界里,而我们继承下来的社会契约——「在学校努力学习,获得学位,建设未来」——可能已经不再成立。我们获得的证书认证的不只是领域知识,还有认知能力:能够阅读复杂的文本、整合各种论点、解决复杂问题,以及依靠自己的力量产出连贯作品的能力。如果她们选择攻读学位,她们的学位又将认证什么?

这笔交易曾经足够有效,也对足够多的人有效,以至于整个公民和经济秩序都建立在一个假设之上:这种状况会持续下去。不过,我现在不再确信这种情况还会持续下去。我还不知道该对她们说些什么。