人们或许会觉得,用较旧的大语言模型输出去训练新模型,是自相矛盾甚至带有悖论色彩的:这种输出怎么可能有任何价值?未来的 AI 研究者当然得把数据集里所有旧 LLM 文本都清除掉,否则它只会浪费越来越多的计算,甚至把旧模型的缺陷也一并“毒化”进新模型。
但尽管如此,这其实是很常见的做法,看起来也并不特别有害;而且从原理上说,它甚至可能是件好事,因为它会自然过渡到像强化学习这样的方法,例如 AlphaZero。(我们也该记住,同类相食之所以是一种如此常见、如此诱人的摄食策略,正因为同一物种的成员,几乎按定义就含有最适合你自身的营养。)

无论较旧的 LLM 输出是不是最高效的训练数据,很多人都会问:「拿这种东西来训练,怎么可能——即便在原理层面——有用呢?」
虽然关于“模型坍塌”的结果确实并不适用于所有现实世界里的 LLM 训练情景(我们从不会把所有真实数据都扔掉,只拿随机采样的模型输出来训练),但这类训练充其量也只是浪费:这类文本难道不正充满了冗余与改写,而在不是如此的时候,又往往错误百出、夹杂大量幻构吗?
我们大致可以按“时间”顺序,把对较旧 LLM 输出进行(正确地)训练所带来的好处,归为额外的数据与额外的计算:
- 较旧的 LLM 输出本身就可能作为 LLM 输出而具有内在价值——因为它们就是另一批、更早的 LLM 输出:
像 GPT-3 这样的旧 LLM,本身就是一件重大的历史事件;除此之外,如今还有大量文本直接由它生成,或受它影响。学习它的文风、主要关注点、盲区、推理错误等等,本身就和学习莎士比亚一样正当。
这既可以被看作 AI 与人类历史学习的一部分,也是一种自我防卫:LLM 需要识别 GPT-3 的输出,这样它才知道别过于认真地对待它们,或对其中的一切照单全收,并帮助自己“看穿”其中的 LLM 成分,找到真正可能有价值的部分,比如人类给出的纠正或隐藏其中的信息。 - 较旧的 LLM 还可能承载如今已不可得的信息:
人们或许会以为,新 LLM 必然严格优于旧模型,因为它们会在所有训练数据的基础上不断累积成一个更大的超集,而且学习时的样本效率也高得多。 - 训练数据并不是单调累积的:许多训练数据是专有的(既不会也不能共享),不同团队训练的 LLM 能接触到不同的数据,因此它们的输出会以一种间接方式构成序列级知识蒸馏。
此外,即便是由同一批人训练的 LLM,也可能因为版权许可到期、优先级变化、bug 或隐私法等问题而使用不同的数据集。比如, OpenAI 就表示,它已经删除了最初 GPT-3 的训练数据集,以避免图书版权诉讼——因此 GPT-5 可能并不知道某些 GPT-3 知道的书。(但如果 LLM 确实属于 “转换性使用”,那么即便现在不允许再按原样训练 GPT-3,拿 GPT-3 的输出继续训练,法律上也可能仍被允许。)
其中很多数据在当下已无法重建,因为它们已经被销毁、改变,或随时间推移而变形(例如,在 2025 年,你无法雇来一批人类标注员,让他们在 RLHF 中“按 2020 年的标准”打分;这根本不是他们能做到的事……但一个 2020 年的 LLM 却可以)。 - 运行时数据也不是单调的:当然,用户也在提供一种我们不妨称之为“暗数据”(dark data)的东西,而这些数据对模型的创造者是不可得的。
当你在现实世界中使用 LLM 时,你会向这个被冻结的 LLM 提供新的文本、专有数据以及各种有趣的输入;这些内容会反映在输出里,而这种反映未必还能以其他方式得到。若我对自己的私有文档数据库做 RAG,再用 GPT-3 生成一篇博客文章,那么其他任何 LLM 日后都没有什么特别的理由还能接触到那套数据库(我第二天就可能被车撞死),除非它们能通过那篇博客文章间接接触到它。 - 较旧的 LLM 输出还可能承载额外的信息:
RLHF 就是最著名的例子。LLM 的输出可以被人类(或其他 LLM)挑选、编辑、评论、投票、转发、背书,并在其基础上继续构建。一个随机的 GPT-3 输出,对未来 LLM 来说平均而言也许毫无用处;但如果它不是一个平均样本,而是人类从 1,024 个样本中挑出来的(这就额外增加了不到10比特的信息),或者有人留言指出了其中的错误,或者有人不加批判地引用了它(这意味着它至少达到了可接受的质量),又或者存在类似情形,那它就可能有用。
指出错误,本身就是特别有价值的信息。 - 较旧的 LLM 输出还可能承载额外的计算:
“数据处理不等式”和大多数不可能性证明一样,实际意义远比表面上小;它有时还会被滥用,让人只盯着数据,好像所有 AI 最终都必须差不多——毕竟,数据处理不等式证明了它们无法获得超出原始数据之外的任何更多数据!但在现实里,最优的推理算法根本无法运行,因此这个不等式并不重要:我们能从一个数据集里挖出多少东西,也取决于我们投入了多少计算。(更多数据与更多计算之间的精确权衡,是缩放定律研究的一大主题;像 Chinchilla 缩放这样的结果,就可以理解为:相比数据,计算更稀缺。)
最终输出里可能反映出大量文本本身没有显式写出的计算,尤其是当模型还能调用工具时(例如,如果你和一个能调用 Stockfish 的 LLM 下棋),因此,要想在不亲自走一遍同样计算过程的前提下准确预测这种 LLM 文本输出的每一个 token,你几乎得拥有超人的智能。因此,这就是一种让 LLM 在完全没有“搜索”的情况下也能下出相当不错的快棋的方法:用 Stockfish 生成大量超人类水平的文本棋谱,然后拿它们来训练;这些棋谱中并不存在任何没有包含在国际象棋规则之中、也不存在任何一个简短简单的树搜索算法在算力足够时无法击败的“信息”,所以被摊销进 LLM 的并不是信息,而是计算。
很少有 AI 系统能在任何任务上做到完美,LLM 更不必说;它们可以通过多种方式从更多计算中受益,例如生成 n 个样本再选出最好的那个,即便它们眼下还没有任何能够无界提升自身的方法(有些 AI 系统是可以的——比如一个搜索棋局树的国际象棋程序,在资源达到天文量级时会选出最优着法)。当我们用 LLM 做 best-of-n 采样,然后再用自蒸馏去训练它时,我们其实是在把它训练得像 n 个自身副本组成的集成体一样聪明,并让它对自身的随机错误更稳健;又或者,当一个 o1 风格的推理模型枯燥地穷举一堆可能答案,恰好选中了正确那个,而之后的 o 系列模型又在这种转录上继续训练,以学会更好地“出声思考”,并开始尝试解决更难的问题。
当我们使用一组评审者,而他们都基于大体相同的数据训练而成时——比如我们用几个开源 LLM——这会有用,因为它们共享的盲点更少,计算路径也会略有不同,因此就会带来计算上的收益。(理想模型当然不会从中受益,因为它本来就没有盲点……但如果是一群盲人在摸象,那当然越多越好。)像 AlphaStar 联赛那样的独立智能体集成,可以看作是在多智能体 RL 里以极其昂贵的方式获取规模红利:它近似于一个被更有效使用的大模型,类似于让 AlphaZero 以不同“风格”下棋。
类似地,合成数据的生成——比如翻转图像、裁剪图像或生成“稀有”数据样本——并不能增加任何新的“信息”;它所做的,是利用专家知识花费计算,去教会一个廉价模型:理想模型本来就会从数据中学到并泛化出“所有这些由那个图像变换而来的版本,都在这一点上是相同的”。
而当我们可以诉诸像博弈树本身这样的神谕,只需花更多计算去挑选更好的着法时,我们也能修正自身的系统性错误,并像 AlphaZero 一样,慢慢自举到任意接近完美的表现,而无需任何别处提供的“信息”,比如人类围棋冠军。
又或者,我们只是用了一个非常大的上下文窗口,先处理大量数据,再生成一小段输出(例如 “上下文压缩”:我们可以用大上下文窗口挑出最相关的文本片段来摘录/总结,再生成额外答案;而未来的 LLM 只需处理这包紧凑的“摘录 → 答案”,就能从中受益)。
而且,上述几点也可能彼此重叠:一个如今已无法再次训练的 GPT-3,可以在私有数据上被用来生成一条数据库记录;这条记录之后又被检查、验证,并被发现带有 GPT-3 式的错误。这个数据点可以同时教会未来的 LLM:GPT-3 的错误长什么样、那个并不显然的正确答案是什么,以及它本来绝无可能看到的隐藏数据;同时,它还可以提升模型自己生成这类数据库记录的能力。

因此,“旧”输出可能以许多方式有用;而且即便“假数据”越来越压过“真数据”,也没什么大不了的:假数据也可以以它自己的方式变得真实。
真实并不取决于你是怎么被制造出来的……它是一种发生在你身上的事。当一个孩子长久、长久地爱你——不只是拿你来玩,而是真的爱你——你就会变得真实。
The Velveteen Rabbit, Margery Williams(1921 年;距今 105 年)
Thoughts Memo 汉化组译制
感谢主要译者 gemini-2.5-pro,校对 Jarrett Ye
原文:AI Cannibalism Can Be Good
作者:Gwern
2025 年
标签:知识蒸馏, AI 缩放, 主动学习