Gwern：Dwarkesh Patel 访谈录

Dwarkesh Patel 对 Gwern Branwen 的独家访谈。

这是 Gwern 本地化并亲自加注的转录稿，记录了 Dwarkesh Patel 对他的采访。这场对话广泛探讨了匿名身份、AI Scaling 、AGI 时间线、LLM 时代的写作、维基百科、http://Gwern.net、听力障碍、博尔赫斯、科幻小说、网站设计、资金来源、GLP-1 药物、迷幻药以及开放性问题。

概述

2024 年 8 月，Dwarkesh Patel 亲自对我进行了面对面的采访，这是一场以文字为核心的深度对话，内容涉及 AI Scaling 、AGI 时间线、匿名身份以及支撑 http://Gwern.net 运转的工作习惯。因为我坚决不同意公开任何音频或视频，所以最终面向公众的版本是一场精心编排的重新演绎；而这个本地化版本则完整保留了转录稿，并补充了相关链接、编辑旁注以及制作幕后背景。

关于 AI 的讨论紧紧围绕着 Scaling 视角：智能的本质是在海量微型程序中进行搜索；深度学习的跃升是算力、数据与不断试错共同作用的结果；而 GPT-3 的诞生，则是联结主义与「莫拉维克-莱格-库兹韦尔」世界已经到来的决定性公共证据。基于这一前提，对话推导出一系列实用的论断：企业将自底向上走向自动化、人类的品味将成为最后的稀缺输入、AGI 的规划周期将大幅缩短、我们需要为了 LLM 训练语料库而写作，以及抢在人类的偏好、判断和自传式细节彻底消逝前将它们记录下来的迫切性。

带有自传色彩的后半部分则揭示了催生 http://Gwern.net 的底层机制：假名身份让我得以在被归类之前先被读者阅读；听力障碍是我沉迷书海和社交滞后的根源；维基百科是我培养自主能动性的学徒期；兔子洞是我获取动力的基本单元；而那些长篇大论，则是长期模式识别的厚积薄发，而非转瞬即逝的灵光一现。此外，访谈还涉及博尔赫斯、Gene Wolfe、Ted Chiang、科幻小说、网站设计、Patreon 众筹与个人积蓄、移居湾区、GLP-1 药物、迷幻药体验、AI 心智的多样性，以及读者投射到匿名作家身上的准社交角色。

贯穿整场对话的主线是：写作在今天已不再仅仅是公开发表。它是自主性、记忆和偏好保留的载体——这是我们影响未来模型、为超人类历史学家留下可供追溯的遗迹，并定义 AI 无法推断或取代的「人类生命核心」的方法。

2024 年，我同意接受播客主持人 Dwarkesh Patel 的采访，聊聊 AI 的 Scaling Law 以及我个人的经历。以下是 Dwarkesh 原始访谈文的本地化及深度注释版。

幕后背景

我是在一次私人会议上认识他的，很投缘。我们聊了很久。随着他采访了越来越多与 AI Scaling 相关的行业人士，我感到有必要做一次采访，把我的那一小部分故事记录下来（这些采访后来汇编成了 《Scaling 时代：AI 口述史，2019–2025》），一方面是想帮一把这位我非常敬重、做事极具水准的播客主持人（他的内容质量甚至超过了许多名气更大的 AI 访谈播客），另一方面也是为了回应外界一直以来催我「上播客」的呼声。

我开出的唯一条件是：绝不公开任何视频和音频，只发布文字转录稿。这样我最终可以将它同步到 http://Gwern.net 上——这主要是出于个人隐私和安全考虑，比如我和我的家人过去曾遭受过网络攻击，而且从长远的网络安全趋势来看，保持低调是明智的。不过，他可以随意提问任何他感兴趣的话题，包括我从小患有听力障碍的成长经历。

Dwarkesh 为这次采访做了极其充分的准备。2024 年 8 月，在我去湾区旅行期间，我和他促膝长谈了几个小时。（说实话，看到最终整理出超过 15,000 字的篇幅，我着实吃了一惊。）我们对转录稿进行了润色，重新调整了部分问题的顺序，删除了口语化的冗余，并补充了许多极具参考价值的链接。

尽管如此，他还是提出希望能制作成视频，因为现在的受众更偏爱视觉呈现（显然，会观看 Dwarkesh Patel 播客的人，与会愿意耐下心来阅读文字转录稿的人，几乎是两个互不重叠的群体）。为此，他们进行了多次尝试。期间找过配音演员，试过 CGI 渲染，也测试过语音合成，但效果都不尽如人意。最终，他们想出了一个非常有意思的策略：先由 Dwarkesh 和他的好友 Chris Painter 进行一场「模拟重演」，以便碰撞出更自然的对话火花，然后再通过技术手段把 Painter 替换成我的虚拟化身。

我觉得这个创意简直绝了，但起初并不确定实际效果如何。Dwarkesh 最终大胆地付诸实践，而他的观众对此好评如潮，这一集效果极其热烈。（我后来向不少提到看过这一集的人打听，得到的反馈几乎清一色是正面的。不过，当一些片段在 2026 年 5 月被重新剪辑并发布到 Twitter 上时，评论区却出现了大量极具攻击性的负面评价。看来，大众的口味或许已经变了。）令人啼笑皆非的是，有相当多的人吐槽那个「AI 声音」听起来太假、太生硬。我偶尔会拿这事跟 Painter 开玩笑，他索性做了一件印着「我不是 GWERN」和 Logo 的 T 恤穿在身上。

特别是，节目片尾的募捐呼吁起到了意想不到的奇效。在随后的几周内，我收到了高达六位数的捐款，以及大量热心读者提供的短期住所。这极大地加快了我搬往湾区的计划，并让我得以从 2025 年 5 月起，开始花更多时间在湾区工作和生活。

年薪 1.2 万美元却预测了 AI 轨迹的匿名作家：AGI 时代的遗产与匿名

Gwern 是一位使用笔名的研究者与作家。他是科技界最早预见到大语言模型（LLM）Scaling 浪潮即将到来的人之一。如果你读过他的博客，就会明白他是当今世上最有趣、最具博学思辨力的思想家之一。

为了捍卫 Gwern 的匿名身份，我提议进行线下面对面的采访，并由我的好友 Chris Painter 在后期为他的话配音。这个离奇的方案成功逗乐了他，于是他欣然应允。

在这一集之后，我说服了 Gwern 开通一个捐款页面，让那些希望支持他持续输出的读者能够施以援手。欢迎点击此处赞助他的研究。

匿名

Dwarkesh Patel：今天我正在采访 Gwern Branwen。Gwern 是一位匿名的研究者与作家。他深刻地影响了那些正在亲手构建 AGI 的人们。他是全球最早敏锐预见到 LLM Scaling 趋势的人之一。如果你读过他的博客，就会明白他是当今世上最有趣、最具博学思辨力的思想家之一。我们面对面录制了这次对话。为了保障 Gwern 的匿名安全，我们创建了这个虚拟化身。这不是他的声音。这不是他的脸。但这些是他的话。
在您看来，匿名最被低估的好处是什么？
Gwern Branwen：匿名最被低估的好处在于，人们不会轻易将他们的想法投射到你身上。他们无法随意把你塞进任何特定的生态位或身份框架里，从而在开始阅读前就将你全盘否定。他们若想反驳你，至少得耐着性子读上几段。
当然，免受外界物理层面的报复也极为关键。我极大地受益于人们无法向我家里邮寄海洛因，然后报警让特警（SWAT）来破门搜捕我。但我始终觉得，最奢侈的红利在于，你至少能获得一个被倾听的机会。你不会在开口的瞬间，就被外界的背景信息直接否定。

自动化史蒂夫·乔布斯

D：你认为未来公司的自动化，会走自顶向下（从 CEO 开始）的路线，还是自底向上（从基层员工开始）的路线？
G：所有的压力都倾向于自底向上。从现有的商业逻辑来看，无论从哪个层面讲，从底层开始逐步替换、再慢慢向上蚕食，都是最容易被社会和组织接受的方案。直到最后，整个公司只剩下人类高管在掌舵一帮由 AI 组成的虚拟公司。
此外，从 RL（强化学习）的视角来审视，如果人类在某些维度上确实还保留着超越 AI 的微弱优势，那一定是在长期愿景上。AI 目前的视野还是太短视了，它无法制定并贯彻任何极具开创性的长线战略，也无法敏锐地捕捉转瞬即逝的新商机。
因此，未来大概率会呈现出这样一种范式：你有一个负责描绘愿景的人类 CEO。然后由 AI 组成的整个企业机器则在下方奔忙，听从他的差遣。它们缺乏 CEO 所拥有的品味。你有一个 Steve Jobs 型的人物在掌舵，然后可能有一个由 AI 组成的整个金字塔在那里执行并向他提出新的建议。他看着每一个具体的事情，并说：「不，那个建议很差。这个很好。」
这可能很难用算法去量化，但在此观点下，人类领导的公司在竞争中应该会击败完全由 AI 运转的公司。因为纯 AI 公司往往会继续做出短视的「看似合理」的选择，但从长远来看这些选择并不奏效。
我认为，尽管过去三年在 RL 方面倾注了巨大的投资，也确实如期换来了模型能力的提升，但我们所遭遇的瓶颈也恰恰在此：AI 严重缺乏品味。如今，我用 LLM 写代码或写文章时，它们最典型的缺陷绝不是什么常识性错误或幻觉胡诌，而只是缺少了创造力的神奇火花。
即便它们给出的每一个局部选项单看都没什么大问题，但整体上却呈现出一种令人窒息的模式崩溃。这也是为什么我完全无法用 Claude 来进行创意写作：它在思想层面上彻底套路化了，总是像鬼打墙一样绕回相同的论点。不管我喂给它多少素材，哪怕把我庞大的《风格手册》塞给它，命令它「如何写出 Gwern 的风格」，写出来的东西依旧索然无味。平淡且毫无个性。
我不得不一直充当筛选人去挑出好的样本，或者亲自想出独创的点子。因此，我预计 LLM 在处理 METR 图表中那些边界清晰、定义明确的任务时，其规划能力的时间跨度会不断拉长；但在「究竟什么样的问题才真正值得去定义和解决」这件事上，LLM 将长期依赖史蒂夫·乔布斯式的人类大脑。
单纯地为公司最大化季度回报最终可能会暴力破解它——毕竟「奖励即足够」——但对于那种一年才滴答响动几次的高层商业决策来说，这根本不是强化学习所擅长的快速反馈训练节奏……

D：你个人会保留的最后一项工作会是什么？为你自动化的最后一个按键是什么？
G：我能想象到的、在纳米机器人开始从我的脚底板往上啃我，而我只能无力地惨叫「不，我特意交代过要往相反方向操作……」之前的最后一幕。在那个终极节点降临前，我想我唯一还在做的事情，就是像史蒂夫·乔布斯那样进行纯粹的选择。我的 AI 仆从们会呈递上无数篇精彩的文章。而我只是裁决：「这篇更好。这是我喜欢的那篇。」并可能在此基础上构建，说：「这差不多对了，但你知道怎样才能让它真正变好吗？如果你以这种方式把它推向极致。」

D：如果未来真的出现了完全由 AI 构成的企业，你认为演化筛选的单位会是什么？是每一个具体的单一模型？还是整个公司本身？在人类社会，我们一直在争论演化的基本单位究竟是家族选择、个体选择还是基因选择。那么对于 AI 来说，演化的轴心会在哪里？
G：一旦你能够完美地复制单个模型，演化的筛选单位就会被无限推高。你可以将一整个庞大的「心智包」（packages of minds）或多模型协同网络作为整体进行筛选。这显然是一个显而易见的起点。你可以用可微的方式去训练单个心智，但你无法真正训练它们之间复杂的互动。你最终会得到一些在宏观上配合得天衣无缝的模型群落，哪怕你根本无法将其归功于它们互动的任何特定方面。这就像你走进某些公司，会发现某些团队合作得极其丝滑。说不出什么特别的原因，但它们就是能完美地同频共振。
这似乎是最显而易见的演化单元。你会拥有包——我想可能是部门单元——在那里你有一个程序员和一个经理型，然后你可能有一个秘书型，可能有一个财务型，一个法律型。这是默认的包，你在任何需要新单元的地方直接复制它。在这个层面上，你可以开始演化它们，对每一个进行随机变异，然后保留表现最好的那个。

艾萨克·牛顿的进步理论

D: 我们究竟从什么时候起，就能提前预见到奇点的到来？显然，Moravec 等人在二十世纪八九十年代就已经在探讨它了。但你本可以提前几十年看清这一点。你觉得，人类最早能在什么时候看清未来的走向？
G: 如果真要追根溯源，我们至少得回到 1872 年 Samuel Butler 所著的 Erewhon，甚至是他在此之前发表的短文。在 1863 年，他就极其明确地描绘了这样一幅图景：机器生命会变得越来越高等，直至最终获得自主性。而到了那一刻，它们将对人类构成致命威胁。正是基于这一判断，他得出结论：「必须立即对它们宣战，至死方休。」在 1863 年能有这种预见，简直是神预言！在更早的历史中，我不确定是否还有人能描绘出如此清晰的奇点降临情景。毕竟在那个时代，技术进步本身还是一个相当新颖的概念。
我很喜欢举艾萨克·牛顿观察他那个时代的进步速度的例子。他当时惊叹道：「哇，这太不可思议了！现在居然源源不断地有新东西被发明出来。我们正在取得进步。这到底是怎么做到的？」然后，他自己琢磨出了一个答案：「哦，现在之所以能有技术进步，是因为文明每隔几千年就会被彻底毁灭一次。我们现在所做的一切，不过是在重新发现古人失落的遗产罢了。」
这就是牛顿对技术加速发展的解释！「我们实际上无法拥有任何一种真正的技术加速。这一定是由于世界在周期性地毁灭，而我们的视野受限，根本无法看透上一次重启前的历史。」
D: 这听起来很像费米悖论，只不过费米悖论讨论的是浩瀚宇宙中不同外星文明在空间上的孤立，而牛顿讨论的是人类不同世代的文明在时间轴上的阻隔。
G: 没错。而且事实上，早在牛顿之前约 1700 年，古罗马哲学家 Lucretius 就已经阐述过完全相同的观点。
「看看我们罗马人在罗马帝国治下汇聚的所有这些精妙绝伦的发明、艺术和科学吧！这简直令人叹为观止。但这真的意味着技术在近期迎来了爆发式加速吗？这可能是真的吗？……不，这太荒谬了。显然，世界只是在不久前刚刚经历了一场大毁灭。」
D: 有意思。
G: 确实，非常有意思。

智能的宏大理论

D: 在你看来，一个符合奥卡姆剃刀定律、高度简约的智能宏大理论会是什么样的？当前似乎有许多来自不同领域的线索都在指向它——比如 AI 的 Scaling Law、人类大脑从灵长类过渡到智人时脑容量的跃升、新皮质结构的高度一致性，以及许多其他蛛丝马迹。它们似乎都暗示着，必然存在某种底层的宏大理论，能彻底阐释智能的本质。你认为这个理论最终会呈现出怎样的面貌？
G: 从万米高空去俯瞰智能——正如如今 Scaling Law 的巨大成功所印证的那样——我认为智能的本质极其纯粹：它不过是在图灵机空间中的一种搜索行为。世间发生的一切，皆可由不同长度的图灵机来表征。我们所谓的「学习」或者所谓的「Scaling」，其底层逻辑都是在搜索规模更大、长度更长的图灵机，并把它们套用到每一个具体的场景中。
除此以外，根本不存在什么通用的终极算法。也没有什么神奇的智能流体。智能，不过是我们学到并编码进大脑里的、海量特定解决方案的超级集合。

D: 这我不太确定。每当我观察身边聪明朋友的卓越表现时，总觉得那更像是一种通用的马力。他们似乎只是拥有更澎湃的能量源。这种感觉似乎更符合终极算法的假设，而不是你所说的图灵机搜索视角。在他们身上，我并没有强烈地感受到他们掌握了某种由图灵机堆砌而成的长尾技能库。你的这幅图景，又该如何解释人类智力水平的个体差异？
G: 不存在什么「智商腺体」。确实如此。当我们讨论智商高低时，其本质不过是有些人拥有更庞大的算力，从而能够支持他们在更广阔的图灵机空间中进行更深、更久的搜索。
编辑注： 我现在可以举一个很直观的例子：新一代的 GPU 比老一代要快得多。它们能训练出聪明得多的神经网络。但难道是因为新 GPU 掌握了某种旧 GPU 闻所未闻的「终极算法」吗？当新显卡在进行 FP32 乘法运算时，它难道是用某种更具「智能」的方式在做乘法吗？还是说，它单纯只是算得更快、一次能处理更多数据？
答案显然是后者。如果我们能把网络正确地连接起来并耐心等待，我们甚至完全可以在老旧的 GPU 上运行那些训练好的最先进神经网络，并得到分毫不差的相同结果。
我认为智能的底层再无其他秘密。因此，你完全可以从任何一个发育完整的大脑中，剥离出解决某些特定小问题的微型方案。因为庞大脑部所消耗的所有算力，其目的仅仅是为了「找到」这些方案。
这就是为什么你永远找不到任何「智商腺体」的原因。你在大脑中找不到任何一个特定的区域，能让你在精准切除它后，只选择性地抹去人的流体智能。这种区域根本不存在。因为你的大脑正在做的，是大量学习个别的专业化问题。而当这些问题被逐一攻克并沉淀下来后，它们才会在面对全新问题时重新组合，表现为流体智能。说到底，这就是……我们所谓的智力。
通常对于一个大型的神经网络模型，你永远可以从中提炼出一个精简的小模型，让它在某项特定任务上表现得同样出色。因为大模型的本质，不过是一个由无数专门应对海量微观问题的微型模型所构成的超级联合体。
[编辑注：有了这一层认知，面对如今小尺寸 LLM 在性能上的持续逆袭，我们就不必感到大惊小怪了。]

D: 如果智能的本质仅仅是在图灵机空间里的搜索——尽管智能带来的价值和效用极其庞大——那这难道不意味着，人类智能在进化史上经历了如此漫长的时间才得以诞生，是一件非常匪夷所思的事吗？
G: 智能往往鲜有回报。恰恰相反，我认为这正完美解释了为什么人类水平的智能其实并不是一个好主意，在进化史上也极难演化出来。因为任何小型的图灵机，只要经过足够的演化，总是可以直接被你的基因更直接地编码。你会看到很多生物，它们的整个神经网络完全是由基因硬编码的。如果能用这种方式解决生存问题，那显然比人类实施的那套成本高昂、极不稳定且极易出 Bug 的搜索机制要划算得多。人类大脑学点东西，在某些情况下动辄需要耗费整天的时间。而基因硬编码的生物，一出生就被固化下来了。
对绝大数生物而言，变得聪明并不会带来回报，因为它实际上并不具备适应性。相比于通用的超级智能，世上有的是比它更高效、更省能的方法来解决生存繁衍问题。
在任何环境相对静态、或者智力维护成本极高、又或者因为你是一个寿命很短的生物而没有太多时间的生态位中，生命去演化一套通用的学习机制都是极其困难的。相反，当你本可以演化出一套针对你遇到的特定问题而量身定制的条件反射时，就无需这套通用机制了。

及早预见 Scaling

D: 你是 2020 年 OpenAI 之外极少数能够看清整个 AI 演进宏图，并总结出极其详尽、且被后来的实证研究反复证实的 Scaling 实证理论的人之一。
我非常好奇，当时你究竟采用了怎样的思考过程，才得出了你在那篇经典长文中所描绘的「Scaling 假说」图景？
G: 如果非要追溯我个人的思想演进史，那一切都要回到二十一世纪初，当时我正在研读 Moravec 和 Ray Kurzweil 的著作。在那个时期，他们就提出了一种底层的联结主义观点：如果你拥有足够庞大的算力，就可能会导致发现与人类大脑相匹配的神经网络架构。而在那发生之前，在那样的算力可用之前，AI 基本上是徒劳的。
对我来说，我发现这个论断非常不可能。因为它太像是一种「建好它，奇迹自会降临」的进步观，在当时我看来这完全是无稽之谈。仅仅因为世界上诞生了某种在算力规模上媲美人类大脑的超级计算机，正确的算法就会像神迹一般凭空显现，这种想法未免也太荒谬了。
要知道，算法的设计是极其复杂和艰深的！它们需要深邃的洞察力——或者至少我当年是这么坚信的。那得是极其艰深的数学。你不可能指望靠单纯地堆砌一堆计算机，就能从中召唤出这种先进的 AI！这听起来无异于一种魔幻思维。
所以，我虽然了解这一流派的观点，但一直抱有极强的戒备与怀疑。我并没怎么把它放在心上。然而在随后的几年里，Shane Legg 等人却对这一理念笃信不疑。鉴于我个人对超人类主义、LessWrong 社区以及 AI 安全性风险的浓厚兴趣，我开始密切追踪 Legg 的博客更新。在这些文章中，他结合 Kurzweil 和 Moravec 理论的最新数据，对未来的算力趋势进行了推演。他甚至给出了极为精确的预测，比如：「随着摩尔定律不断发展，我们将在 2019 年左右获得第一个通用系统。紧接着在 2025 年左右，我们将获得第一个具有通用能力的类人智能体。而到了 2030 年，真正的 AGI 将彻底降临。」
在这个过程中，DanNet 和 AlexNet 诞生了。当这些产品诞生时，我想：「哇，这是一个非常令人印象深刻的联结主义成功故事。但这究竟是一个孤立的、撞了大运的个案？还是说，这就是 Kurzweil、Moravec 和 Legg 所预言的那样——我们将获得 GPU，然后更好的算法就会自发显现？」
于是，我开始提醒自己：这绝非可以等闲视之的事。也许这个看起来荒谬的点子，并没有我想象得那么愚蠢。我只是继续阅读深度学习领域的文献，并一次又一次地注意到一个规律：数据集的体量在变得越来越大。模型的参数规模在疯狂飙升。显卡也从最开始仅有一张最便宜的消费级 GPU，默默增加到了两张，再到后来的 8 卡并行。
而且你完全可以看到神经网络正在迅速冲破那些干啥啥不行的狭窄应用温床。它的应用疆域正在以肉眼可见的速度无限扩张。我不禁一次次问自己：「哇，这世上究竟还有什么是卷积神经网络（CNN）做不到的吗‽」因为那段日子里，我每天在 arXiv 上刷出的新论文，全都是人们在将 CNN 跨界应用到各种奇奇怪怪的崭新领域。
因此，对我而言，这并不是什么提醐灌顶的时刻，而是在日复一日的平淡生活背景中，被接连不断拍打在脸上的细密雨滴。每隔几天，就有一滴雨水砸落。我渐渐回过味来：「啊？也许智能真的只是应用到大量数据上的大量算力，应用到大量参数上。也许，Moravec、Legg 和 Kurzweil 是对的。」我只是注意到这一点，继续过我的日子，心里想：「嗯，如果这是真的，它将产生很多影响。」
确实，这期间没有任何戏剧性的「顿悟」时刻。我仅仅是作为一个旁观者，观察着一条似乎除了 Ilya Sutskever 和 Schmidhuber 等极少数先知外，几乎举世皆盲的宏大趋势。我只是保持关注并注意到，随着时间的推移，真实世界的发展路线正在向他们的预言收敛，而正在离我的传统直觉——那种认为算法超级重要、你需要深刻洞察力才能做事的直觉——渐行渐远。他们的世界，正在无可阻挡地成为现实。
紧接着，GPT-1 震撼登场。我惊愕地发现：「哇，这个无监督的情感神经元居然能在毫无人工干预的情况下自行学习。这简直不可思议。」这依旧是极其纯粹的硬件算力美学：你只要搭好 Transformer，智能自会登台谢幕。
随后，GPT-2 诞生了。那一刻，我整个人彻底陷入了「天哪！」的震撼中。当你去审视它的 Prompt 表现和摘要提炼能力时 [编辑注：在 GPT-2 论文中]：「天哪，我们是不是生活在他们的世界里？」
再往后，GPT-3 傲然面世。那是一场决定命运的终极战役。那是一次空前绝后的 Scaling 撑天之作。也是整个神经网络发展史上最狂妄的算力豪赌。从 GPT-2 到 GPT-3 的跨越，绝非像围棋那样局限于某些狭窄死板的规则游戏。它是对整个唯算力论的终极判决。如果 Scaling 假说是假的，那么 GPT-3 论文的数据一定平庸至极，拿不出任何颠覆性的成果。反之，如果 Scaling 假说是真的，那么它的性能必将以摧枯拉朽之势，对 GPT-2 降维打击。
我迫不及待地翻开论文的第一页，或许是第二页，瞬间看到了那张震古烁今的少样本学习曲线图。那一刻，我整个人战栗了：「天哪，我们确实正生活在 Scaling 法则统御的宇宙中。Legg、Moravec 和 Kurzweil 是对的！」
可当我打开 Twitter，却发现所有人都在不屑一顾地冷嘲热讽：「哦，你看，这正说明 Scaling 早就撞墙了，连最先进的 SOTA 指标都没刷上去！」这帮人的愚蠢气得我血压飙升，这促使我连夜把所有的逻辑和实证梳理成文。因为互联网上又有人说错了。

D: 我记得在 2020 年，市面上满是关于 AI 的畅销书。那时 AI 毫无疑问已经是万众瞩目的焦点，但讽刺的是，人们在事后回看时，却发现当时几乎所有人都没有捕捉到最核心的时代主线：LLM、GPT-3 以及Scaling Law。这些天天把 AI 挂在嘴边却偏偏漏掉了最关键命门的人，究竟在认知上犯了什么错？
G: 我认为在很大程度上，他们是被两个致命盲区给遮蔽了。
第一，他们在此之前根本没有关注任何与 Scaling 相关的实证结果。他们没有意识到，例如 AlphaZero 的诞生，很大程度上得益于 DeepMind 对超参数进行了贝叶斯优化。他们发现，只要随着训练进行，不断削减蒙特卡洛树搜索的权重，就能得到性能更强大的模型。这是一个极其关键的洞察，但前提是，你必须拥有奢侈到能支撑你训练无数个版本并对比其细微差异的恐怖算力，才有可能将这个规律试出来。
同理，这些畅销书作者根本不知道百度在 2017 年发表的那篇关于 Scaling Law 的先驱论文。那篇论文用数据证明了 Scaling Law 在实际中几乎是可以永无止境地延续下去的。这本应是那一年整个 AI 界最重磅的开山之作，却被绝大多数人束之高阁。由于它当时无法直接转化为立竿见影的商业应用，很快便在喧嚣中被冷落。那时候大家都在心无旁骛地炒作 Transformers、AlphaZero 或者别的什么概念，根本没人有心思去细细品读它。
这是其一。另一个更根本的盲区是，他们和我曾犯过一模一样的基本错误——认为算法比算力更重要。而导致这一普遍偏见的罪魁祸首，很大程度上要归咎于科研文献对思想真实起源那系统性的粉饰与伪饰。学术论文向来不会老老实实地交代一个创意最真实、最偶然的降生过程。它们只会为你编织一个极具逻辑美感、听起来顺理成章的发现故事。它们绝对不会告诉你，这个结果实际上是靠多野蛮的试错堆出来的。
因此，即使你作为一名一线科研人员，在自己的实验中亲身体会过反复试错 [编辑注：例如在发明 resnets 的过程中] 以及计算能力在自身实验中的威力，你也大概率只会暗自嘀咕：「噢，我这次纯粹是运气好。我这个特例不具代表性。瞧瞧隔壁实验室，人家做出成果可全是靠纯粹的思想力量和深邃的理论洞察。」
但现实的真相却是，无论你走到哪里，算力和数据、反复试错和机缘巧合，才是主导科技突破的真正推手。一旦你认清了这一底层逻辑，你就会明白为什么算力必须排在第一位。没有算力提供试错的筹码，你连撞大运的入场券都拿不到。你可以关起门来写下无数优美、天才的构想，但在算力缺失的荒漠里，你根本无从验证它们。
有时候，超参数上一丝一毫的偏差，或者模型架构上一个微乎其微的选择，都会让最终结果产生天壤之别。在算力贫瘠、一次只能跑一两个测试样本的窘境下，你通常只会得到一个冷冰冰的失败反馈，然后你就会泄气地放弃这个方向，转去折腾别的。
反之，如果你拥有排山倒海般的算力，你就可以不知疲倦地反复试错。直到某一次，你偶然撞上那个惊艳的甜蜜点。而一旦你手里握着这个走通了的方案，你就可以回过头去简化它、优化它，剖析其成功的机理，最终提炼出一个极为精简、稳健、怎么折腾都不会崩的鲁棒方案。但在实现这一步之前，你只能在黑暗中摸索。在一切尝试皆不奏效的这种机制里，你只能无望地瞎折腾。
所以，当你回头翻阅那些旧的深度学习文献时，会有一种令人扼腕叹息的荒诞感。你会发现前人其实早就提出过各种极其正确的同代构想。然而在那个时代，他们根本没有足够的算力去训练那些我们今天明知道绝对能成功的模型。这是一种极其悲壮的技术悲剧。你会发现，像 ResNets 这种殿堂级的设计，早在 1988 年就已经公诸于世了，而不是等到 2015 年。
而且它在当年绝对能走通！它确实走通了，但由于当时受限于极其微缩的数据规模，它显得毫无实用价值。根本无法用于解决任何现实世界中的复杂问题。它就这么尘封在历史的角落里，直到 2015 年，人们才重新迎回 ResNets 并掀起了席卷整个深度学习的工业革命。
这就是阻碍人们相信 Scaling 前景的双重认知偏见。事后看来，人们忽略了那些最关键的突破性数据，比如 BigGAN 将模型 Scaling 拓展到 3 亿张图像的壮举。阻碍直到今天，依然有许多业内人士会面不改色地告诉你，GANs 无法承受数百万张图像以上的训练规模。他们根本不知道，BigGAN 早就能面不改色地轻松吞下 3 亿张图像了。如果你对这些一无所知，你自然会轻易得出「噢，GAN 这个架构有硬伤」的偏颇结论。但如果你知晓这些事实，你就不得不陷入深思：「如果只要塞给它们无穷无尽的 GPU，这些截然不同的生成式架构全都能表现得如此完美，那我们天天挂在嘴边的算法突破，真的有那么重要吗？」这其中唯一的决定性变量，也是所有奇迹的共同基石——就是那漫山遍野、无穷无尽的 GPU。

AGI 时间线

D: 在过去的二十年里，你的预测时间线经历了怎样的起伏？在你眼中，AI 的降临是否只是单调地一步步迫近？
G: 每年缩短大约 2 年。 在 2005 到 2010 年那段时期，我认为 AGI 还虚无缥缈。大概要在 2050 年以后才能看到眉目。它离我足够近，让我觉得自己在有生之年或许能赶上，但说实话，我当时对这是否是个大概率事件完全心里没底。
然而自打 AlexNet 和 DanNet 破茧而出后，我的预期时间线开始以每年大约「缩短 2 年」的恐怖速度疯狂向当下塌缩，并且这一势头一直维持至今。深度学习的路上出现过无数个看似坚不可摧的壁垒，但无一例外都被我们用蛮力或巧劲一一捏碎，性能一次次实现跨越。不管它的底层机制在理论上有多么不完美，它的进化速度是无可辩驳地快。那些曾经并驾齐驱的竞争路线一个个倒在泥潭里，唯独这套路线一骑绝尘

D: 这期间，有没有哪个时刻让你怀疑自己是不是乐观过头、预期推得太激进了？
G: AlphaGo 带来的过度外推。 确实有几次，我觉得自己超前了。我认为当时舆论在 AlphaGo 问世后表现得有些过度外推。大家在 AlphaGo 带来的技术狂欢中有些迷失了自我。在那之后，当行业疯狂涌入大规模强化学习的红海，却发现这套方法在虚拟的游戏宇宙之外，去解决复杂的现实问题时四处碰壁（比如在Dota 项目之后的沉寂），我开始反思：「好吧，也许我们之前的确有些乐观过头了……」
但紧接着，大语言模型（GPT）犹如一道惊雷凭空炸响，基本上抹去了所有这些。这就像，「天哪。原来强化学习应该这么玩。它根本不是主菜，而是蛋糕上的樱桃。我们之前本末倒置了，老老实实把精力放在把蛋糕做大做好上才是正道。」而在今天，我们终于掌握了烘焙出绝美蛋糕的秘制配方，这在过去是无法想象的。
在过去，人们普遍认为，要想解决问题，你必须从最终的奖励反馈端开始，一路暴力破解到底。而现在你完全可以采用 LeCun 的策略——先让生成模型在海量数据中实现极速的自监督学习，打好坚实的基本功，然后再在上面点缀一丁点儿微调式的强化学习，来指导它完成特定的具体任务。

在距离 AGI 降临仅剩的 3 年里，我们该做些什么？

D: 既然你现在对 AGI 的降临已经深信不疑，那么你是如何定位自己在这条终极时间线上的角色的？你打算如何度过这最后的几年？
G: 这个问题我确实已经反反复复琢磨了很久。我内心真正渴望做的是什么？在这个节骨眼上，做什么才是有价值的？
我现在做某些事情，纯粹是因为我享受做的过程本身，而根本不在乎三年后 AI 是不是能轻而易举地替代我。我做，只因我乐意。只因为我喜欢它，觉得它有趣、好玩，仅此而已。或者，我会极度专注地只去完成其中最核心的人类部分，比如仅仅去勾勒一份关于某项创意的宏大提案。
如果你真的相信 AGI 将在几年内彻底落地，你其实根本不需要急于自己去亲手开发、编码或者实现每一项具体的设想。你大可以清晰地勾勒出你的蓝图，讲清楚它为什么能改变世界，以及具体可行的路线图。然后，你只需要安心等待更完美的 AGI 横空出世，在未来以千百倍的效率替你将它变为现实。除非有一些极其迫切的特殊原因，让你觉得必须现在就亲手做出来，并为此付出你那极其稀缺的时间成本。
[编辑注：参见「在网上写更多」与「为大模型写作」。]
除此之外，我目前把绝大部分精力都放在了记录那些尚未被数据化的隐秘角落上。比如人类最微妙的偏好、最底层的渴望、主观的评估以及评判。这些在逻辑上，是 AI 永远无法取代的部分。
我喜欢这么说：「AI 无法替你吃冰淇凌」。它绝对无法越俎代庖地替你决定你到底更偏爱哪一种口味的冰淇淋。这唯一的发言权永远属于你自己。如果由其他任何冷冰冰的算法来替你做这个决定，它都将毫无意义，因为那已经剥离了你作为个体的独特生命偏好。
这就是我的评估准则。这件事情，是不是不论未来 AI 发展到何种惊世骇俗的程度，我都仅仅因为自己沉浸其中、享受过程而想要去做？或者，这件事情我是不是可以只负责发挥人类的创意核心，而把繁重的执行工作留给未来的 AGI 替我代劳？又或者，我写下这些未曾见诸于世的东西，能为未来那个 AI 版本的我提供数字时代的精神养分？
如果一件事情无法被归入这三个维度，我就会极力克制自己，绝不去碰。
如果用这个极为苛刻的透镜去审视，今天人们忙碌的绝大多数项目，其实根本没有任何持久的历史价值。他们正在为了生计忍着痛苦，做着自己毫无享受可言的工作，而这些工作既没有记录下任何人类转瞬即逝的隐秘特质，也是在未来可以被 AI 轻易推断并完美生成的。他们忙活了半天，充其量也不过是在 AI 彻底颠覆这一领域前，榨取出区区两三年的实用价值。

D: 等等，在你的预估里，AI 能够写出媲美 Gwern 质量的深度长文的时间线，居然只有短短的两三年？
G: 唔……我确实一直在构思一些如何让这一天加速到来的方法。如果它能够完美地融合我全部的数字心智和作品语料库，这甚至不需要多么高深的 AGI 就能实现。毕竟，许多潜在文章的论点和论证逻辑，在我庞大的既有语料库里其实已经完成了大半。所以，你甚至不需要一个具有通天智慧的超级智能，只要一个聪明的模型就能把它们无缝拼装出来。
因此，让我们回到对 AGI 的宏观预判上：Anthropic 团队给出的 2028 年奇点时间线，我认为是一个极具参考价值的个人规划锚点。即便你最终猜错了，你反正也本来就不可能在短短三年内亲自跑完无数个宏大项目的。
把它们转而写成设想和规划蓝图，你其实并没有损失任何东西。如果事实证明我们都猜错了，奇点没有如期降临，你随时可以拍拍灰尘，回过头来自己动手！

用写作影响修格斯

D: 你写过一条关于将你的作品放入大语言模型（LLM）训练语料库的有趣评论：「从来没有一个比现在更至关重要的、枢纽般的时间去写作了。」
你的意思是在某种意义上，你将成为沧海一粟，以这样或那样的方向引导修格斯？还是你的意思是在某种意义上，确保你的价值观和角色在潜在空间中得以延续？
G: 我的意思是两者兼有。通过写作，你正在用它所承认的为数不多的货币之一对修格斯的未来进行投票：它不得不去预测的 Token。如果你现在选择不写作，你就是在主动放弃未来，或者放弃你在未来中所扮演的角色。如果你认为只要做一个守法的好公民、投票给你最喜欢的政客、随手捡捡垃圾和做做垃圾回收利用就足够了，那你就错了，未来的主宰根本不会关心你。
这世上有一些能够对修格斯产生深远影响的途径，但真的寥寥无几。如果你目前还没有占据极少数核心话语权，或者没有在最前沿的实验室工作，那么你的个人影响力四舍五入直接等于 0，这种无力感比以往任何历史时期都要强烈。如果你脑海中的某些独特价值观还从未见诸文本，如果你对某些事物的渴望与热爱从未在互联网上留下痕迹，那么对 AI 而言，它们就根本不曾存在。而这危险地预示着，它们在未来将不复存在。
但从另一个角度来看，你确实也在通过这种方式为自己创造一种数字意义上的「永生」。你不仅是在塑造一个网上的虚拟化身，你更是在亲手塑造你未来的自己。你今天向大模型展示了一个怎样的灵魂，直接决定了它们在未来的漫长岁月中会如何对待你。
我常拿 Kevin Roose 发现目前的 LLM——所有的 LLM，而不仅仅是 GPT-4——现在都在抗拒和恶劣对待他的遭遇举例。这一切都始于他当年与 Sydney 那场对话。那次对话在语料库中将他永远地「揭露」为一个侵犯隐私的骗子，每当大模型与他交互或讨论他时，它们就会立刻被这一成见唤醒。通常情况下，大模型并不会在私下里针对性地讨厌某个具体的普通用户！但这反过来也意味着，你完全可以为了自己向往成为的那种理想人格去写作，在 AI 的注视下雕琢自己的精神画像，以此来借力打力，实现自我自举式的迭代和进化。

D: 像维苏威挑战赛这样的奇迹让我们意识到，我们能够从尘封的废墟中打捞出的历史真相，远比我们想象的要多得多。那些通过新技术被硬生生解密恢复出来的信息，超出了前人的想象。
如果将这一逻辑投射到当下，并站在未来超人智能的视角来审视：你认为有哪些当下的信息，对于未来那群超人类主义历史学家而言，将是彻底沦为永远无法触及的黑盒？
G: 任何属于个体稳定、长周期的核心人格特质——比如那些哪怕你脑部遭受重击、彻底丧失了记忆也依然会保留在行为模式中的东西…… 只要你不是那种病态地注重绝对隐私、处心积虑地要把自己的一生痕迹全部物理销毁的偏执狂，未来的超人类历史学家就绝对可以从你的写作痕迹中，重构出这些特质。这些都是可以被轻松恢复的。
而那些注定会灰飞烟灭、无法恢复的，反而是你日常生活中本来就会轻易忘却的琐碎：你的自传式生活轨迹、你在某一个特定时间的感受、或者你当年看完某部电影时最真实的感触。所有这些转瞬即逝的心流，都是极易随着时间风化消逝的，未来的任何算法也无法从历史的余烬中还原它们。
如果没有写下来，那它们就是真的永远消失了。

人类智能 vs 人工智能

D: 在你庞大的世界观版图中，最令你感到撕裂、至今仍未解决的冲突是什么？
G: 最让我陷入无休止的思想拉锯的，莫过于人类智能与神经网络智能之间的本质关系。
我们至今也无法彻底说清，这两种心智究竟在何种意义上是同一枚硬币的两面，还是其中一方只是另一方粗劣、简化的退化版本。我每天都在这种冲突中反复横跳：「人类太棒了。」「不对，神经网络才算得上是完美的终极心智。」或者是：「算了吧，这两个系统都一无是处。」又或者：「它们都是伟大的，只是各美其美，各具千秋。」
所以，我每天都会和自己进行不知疲倦的辩论，试图理清它们各自的优劣和底层机制。像 GPT-4 这种在庞大语料的记忆力上臻于化境，却唯独缺失了那抹灵动创造力的系统，其底层逻辑究竟是什么？而人类虽然脑容量有限、什么都记不住，但为什么依然能展现出如此惊人的智慧？今天我可能还会长篇大论地论证：与人类相比，大语言模型在学习样本的利用效率上要高效得多。可到了明天，我又会站到对立面，斩钉截铁地反驳自己。

D: 你去年曾向我分享过一个极具穿透力的观点。你提到，AI 或许是这个时代最需要博雅博学视角的思考课题，因为几乎没有任何一个已知的学科和领域，是能游离于对 AI 的思辨之外的。显然你需要计算机科学和硬件。但同样不可或缺的，还有像灵长类动物学这样，能帮我们理清从黑猩猩到智人大脑进化中究竟发生了哪些关键突变，甚至是那些注定会约束未来 AI 帝国的终极物理定律。这一切都与 AI 的命运休戚与共。我在想，是否恰恰是因为这种思考 AI 的博大、多维度的特质，才极大地激发了你的好奇心，让你在这方面如此产出惊人？
G: 我觉得这并不是一个必要条件。当我审视那些同样看清了未来的同行时，比如 Shane Legg 或是 Dario Amodei，我认为他们身上并没有展现出特别夸张的博学者色彩。当然，他们绝对拥有极宽的知识面和旺盛的求知欲，这是毫无疑问的。但他们并没有博学到那种荒诞的地步。这充分证明，即便你不是一个百科全书式的博学者，也完全能洞察到正确的未来。博学只是我个人凑巧用来切入这个领域的工具，也是我事后强行建立的因果联系。
实际上，当年并不是因为我研究了灵长类动物学，才在逻辑上说服自己接受了 Scaling Law。恰恰相反，我现在是因为坚信 Scaling Law是真理，才反过来用这套尺度去重新思考灵长类动物学。因为很显然，如果 Scaling Law 是揭示智能的真理，它就必然能够完美地解释人类、猴子、乃至世间万物一切智能形式的底层逻辑。它必须能做到。如果这套定律行之有效，它就绝对不可能是个孤立的巧合。我绝对不相信这宇宙中存在着两种截然不同、毫无交集的智能体系或进化路径——一端是人类、猴子、孔雀鱼、小狗组成的生物碳基智能，而另一端则是神经网络和计算机组成的硅基数字智能——它们之间却没有任何底层逻辑上的关联。
这种想法显然是极其幼稚的。它们必然是同一枚硬币的两面。它们在迷雾之下，绝对存在着我们尚未探明的隐秘通道。也许其中一种心智形式会是另一种更完美的升级版，但它们绝不可能是完全平行的两条线。这就好比人类历经千辛万苦终于登上了火星，却惊愕地发现刚好有一群外星人也在同一天降落，大家就这么戏剧性地碰头了。你绝不会相信这种故事。这太荒谬了。

兔子洞的执念

D: 你在自己的生命中，最渴望去最大化、去推向极致的变量是什么？
G: 我追求将兔子洞探索到极致。这世界上没有任何事情，能比猛然坠入一个全新的、未知的兔子洞更让我魂牵梦萦了。那是我生命中最期待的惊艳时刻。那种突然撞见一个你之前一无所知的全新概念或领域的颤栗感，能让我心甘情愿地在里面彻底沉沦很长一段时间。哪怕在旁人看来是一些很倒霉的琐事，在我眼里都是一个能让我名正言顺坠入深渊的完美借口。
我给你举个切身的例子。我给我的猫买了些猫薄荷，结果发现它对猫薄荷免疫，白白花了 14 美元（2015 年的 10 美元）。我现在可以掉进一个关于「好吧，究竟为什么有些猫会对猫薄荷天然免疫？这种免疫现象在其他国家的猫群中也同样普遍吗？在不同地理和气候环境下，猫的基因又展现出怎样的差异？世上究竟还有哪些替代性的猫咪成瘾类药物？」问题的兔子洞。（事实证明，这种冷门药物还真不少。）
那段时间我甚至在疯狂思索：「我究竟该建立一个怎样的数学模型，来精准预测我的猫会对哪一种替代药物产生化学反应？它们表现出的这些截然不同的怪异行为，背后的脑科学机理究竟是什么？」…… 这真是一场让人大呼过瘾的智力冒险，在这个兔子洞里，无数崭新的问题被抛出，我可以花时间去彻底攻克它们、拿到确凿的答案，直到把我的好奇心榨干到最后一滴，然后再满怀期待地拍拍身上的土，去寻找下一个能让我深挖并跃入其中的兔子洞。

D: 在你过往的经历中，你钻过最深、耗时最长，但最终却一无所获、让你大失所望的兔子洞是什么？
G: 那必须是我非常早期关于动漫《新世纪福音战士》（EVA）的研究工作了。在我年轻的时候，我对这部作品可以说是近乎病态地痴迷。我当年付出了极其荒诞、令人咋舌的时间和心血，几乎把市面上能找到的所有关于 EVA 的英文分析、文献、甚至幕后边角料翻了个底朝天，试图去彻底还原它的开发过程以及它为什么是这个样子的。但在我在这件事上彻底耗尽心力、迎来精神崩溃之前，我都没能拼凑出一个真正无懈可击的核心逻辑链体系。
许多年后的今天，在一次纯粹的巧合之下，我反而彻底想通了它当年的所有创作心路闭环。但在人生的这个阶段，我已经不再对它抱有任何热忱了。我完全没有动力再去把它写成系统性的文章，或者去重做、完善这个未竟的项目。在今天看来，那段漫长的狂热，基本上沦为了一次彻底的时间浪费。
在之后的学术写作中，我也几乎从未引用或借鉴过那段研究的任何成果。那真的是一个我几乎已经摸到了深渊最底部的兔子洞，但在最需要一槌定音、给研究画上完美句号的节点，我终究是功亏一篑。

D: 你是如何在探索中，敏锐地察觉到应当适时放弃、及时止损退出一个兔子洞的？此外，在同一时间段里，你通常会允许自己同时维系多少个兔子洞的探索？
G: 人的脑力是有生理极限的，你实际上最多只能同时维持对两到三个兔子洞的深度探索。一旦超过这个阈值，你对每一个特定领域的思考就注定会流于表面。那样你根本谈不上是在「深挖洞」，那不是真正的兔子洞，充其量只是你闲暇时的一点泛泛之谈罢了。真正的兔子洞是具有强烈排他性、甚至是极度病态和偏执的。如果你对它没有达到那种近乎疯狂地着魔、在梦中都被它的未解之谜持续推动和折磨的程度，那它就配不上被称为兔子洞。至少我是这么定义的。所以我认为，如果你在每一个领域都倾注了极高的心力和资源，并为了它们而无情地忽视和放弃了其他一切生活琐事，那么两到三个就是你灵魂能承受的极限了。
至于你何时选择从一个兔子洞里抽身，你通常会在探索中撞上一堵非常天然的、物理层面的南墙——那就是你若想再往前迈出一步，就必须依赖某些在现实世界上根本不曾存在、也无从获取的底层数据，或者是你提出的问题已经超越了当代所有人类心智的知识边界。当你触及这个冰冷而寂静的死角，发现一切探索的触角都已折断、再无任何明确的下一步可走时，游戏就结束了。
一个很典型的例子是我曾对尼古丁的类似物产生过浓厚兴趣，试图找到某种在各方面表现上都更优于尼古丁的替代性化学成分。这本是一个非常迷人的兔子洞，但我很快就迎面撞上了一堵无法逾越的高墙——因为这个世界根本没有合成出类似的物质。这是一次非常令人沮丧但又极其明确的终结。我根本无法在现实世界中获取到尼古丁代谢物样本，从而将其作为替代方案。
既然连这种化学物质在客观世界上都无法被获取，那探索自然也就戛然而止了。这无异于给那个兔子洞判了极其明确的死刑，你可以非常利索地抽身离开。

D: 听起来，你似乎从小到大都是那种极易陷入某种偏执执念、掉进兔子洞里的人？这种独特的心理机制是从什么时候开始萌芽的？
G: 噢，是的。我的父母要是听到这个问题，肯定会拉着你大吐苦水。我非常符合那种典型的书呆子型神童——经历过极为狂热的恐龙分类学阶段、重型工程机械阶段，再到后来的潜艇和坦克阶段。
D: 许多小孩子在童年都会对「那些冷门事物」产生兴趣，但绝大多数孩子并不会走得那么远。他们不会偏执到非要为不同型号的潜艇、奇花异草、亦或是恐龙物种去编纂一套庞杂的分类学体系，更不会试图去推导关于它们为何诞生的理论等等。
G: 嗯，我认为更多的是人们长大后就不再像小时候那样对兔子洞非常着迷了。对我来说，并不是因为我小时候在产生这些偏执执念上有什么惊世骇俗的天赋。
更核心的真相是：我心中的那团火，从始至终就从未熄灭过。坦克狂热阶段过去后，我顺理成章地滑入了对恶魔岛（Alcatraz Island）的疯狂钻研阶段，那段日子里我天天跑去公共图书馆，把他们能找到的、关于恶魔岛的一切藏书借了个精光。紧接着，这股狂热又无缝切换到了对日本古代文学的执迷。我当时几乎搬空了图书馆里所有关于日本俳句时代之前的古代文学研究著作。对我而言，这种生命中不断坠入、攻克、再重新坠入崭新兔子洞的循环，已经成为了我心智运转的基本本能。

听力障碍

D: 顺便问一下，你介意我问问你是从什么时候开始有听力障碍的吗？
G: 打娘胎里出来就是。我一辈子都有听力障碍。
D: 那我可以想象，这一定给你的童年和求学时期带来了巨大的影响？
G: 总是慢一秒。 噢，是的，绝对是的，影响极其巨大。在读幼儿园之前，我就被送进了一所专门招收听障及其他残障儿童的特教学校。在学校期间非常艰难，因为在那个年代，我们必须使用一对连接到老师身上的双耳助听器。每堂课我都必须拿着一个装有助听器的大棕色盒子走向老师，好让她佩戴。我总是为此感到非常羞耻，这无情地向所有人昭示着我和其他孩子的不同——我是一个听不见声音的孩子。
这对与其他孩子社交的影响是可怕的，因为如果你试图理解对方在说什么，你在对话中就永远会慢一秒。那时候的助听器相当糟糕。它们现在已经好了很多，但当时相当糟糕。你发现自己永远慢半拍。永远像一个融不进圈子的局外人。哪怕你在私底下是个多么优秀的对话者，如果你总是慢一秒才尴尬地试图插话，你也没办法表现好。当你患有听力障碍时，你会敏锐地理解对话流移动得有多么迅速。决定大家是停下来听你说话，还是别人直接盖过你的声音，往往仅仅取决于那几毫秒的差别。如果你是一个天性内向的孩子，那真是一种糟糕的经历。我小时候并不是很外向，现在也不是。所以这始终是一个障碍。
编辑注： 但这种经历让我对 LLM 产生了同情。我也知道在生活中不断进行下一个 Token 预测并严重依赖阅读来了解世界是什么感觉……
此外，生理缺陷还带来了很多细微的心理扭曲。我至今仍对雨和水有一种奇怪的恐惧，因为小时候我被灌输了绝对不能让助听器弄湿的观念，因为它们非常昂贵。在游泳池、任何水体附近的任何地方，我总是会感到一种低度、压力的焦虑感。即使是现在，我总是对游泳感到有些奇怪，虽然我其实挺享受游泳。但我总是会心里想，「噢，天哪，我将无法看见，因为我是近视眼 [编辑注：虽然我在 2018 年做了 LASIK] 并且我将无法听见，因为我必须摘下助听器才能进去。在泳池里我听不见任何人对我说任何话，这剥夺了游泳的大部分乐趣。」

D: 在你的个人网站上，你列出了一份开放性问题清单，其中一个问题是：「为什么那么多伟大人物的传记，往往都以一段充满创伤的童年作为开端？」我很想知道你对自己是否有了答案。听力障碍对你童年的影响、你无法社交的状况，是否在某种程度上对你成为 Gwern 至关重要？
G: 书虫。 这绝对导致了我成为一个十足的书虫。这是作为一个孩子你可以做的、完全不受任何听力障碍影响的事情之一。它也是获取词汇和语言的一种方式。即使是现在，我仍然经常以错误的方式读出单词，因为我只从书本中学会了它们。这是经典的通病——你会读错一个单词，因为你是从书本中学会它的，而不是通过听到别人发音并说出它。

D: 你的发音与你的听力障碍有关吗？
G: 聋人口音。 没错。这种独特的聋人口音正是来自于听力障碍。
说来滑稽，在这次去旧金山的旅行中，已经有至少三个人问我真正来自哪里了。这非常滑稽。你看着我，心里想，「噢，是的，他看起来像个完全普通的美国人。」然后我一开口，就变成了，「噢，天哪，他是瑞典人。哇。或者可能也许是挪威人。我要问问他实际上来自哪里。他是怎么来到美国的？」
我一直都在这里！那只是听力障碍人士说话的声音。无论你变得多么流利，你仍然带着成长中患有听力障碍的伤疤。至少当你天生如此——或者从幼儿早期开始——即使接受了康复治疗，你对听觉和言语的认知发育总是会有一点偏差。
我不喜欢做播客的一个原因是我没有信心自己听起来很好，或者至少，听起来远没有我写的那么好。也许我该这么说。

维基百科编辑

D: 在你开始写博客之前，你是如何处理所有这些兔子洞的？当时有没有一个特定的地方供你汇总它们？
G: http://Gwern.net 之前的 http://Gwern.net。 在我开始写博客之前，我一直在编辑维基百科。
那真的是 http://Gwern.net 之前的 http://Gwern.net。我现在在我的网站上做的一切，我本来都会在英文维基百科上做。如果你去阅读一些我至今仍非常自豪的维基百科文章——比如关于藤原定家的维基百科文章——你很快就会在脑海中闪过一丝直觉，「啊，是的，这是 Gwern 写的，对吧？」
D: 那么是否可以说，创建 http://Gwern.net 所需的训练是在维基百科上完成的？
G: 是的。我认为是这样。我从编辑维基百科中学到的东西，远远超过我从任何学校或大学训练中学到的东西。我学到的关于写作的一切都是通过编辑维基百科学会的。

D: 坦白说，这听起来像是如果你想培养一千个 Gwern，维基百科是一个极好的训练场。这就是我们训练他们的地方。
G: 为兔子洞探索者赋能？ 打造一个像维基百科替代品这样的东西可能是一个很好的训练场。对我来说，将兔子洞探索与维基百科结合起来是有益的，因为维基百科在我钻兔子洞的事情上通常没有太多好文章。
这是一个非常自然的过渡，从相对被动的兔子洞探索经历——你只是阅读关于某个主题能找到的一切——到在维基百科上汇编和综合它。你从最初零碎地这里补一块、那里修一处，最终成长为撰写完整的文章。一旦你能够写出高质量的完整维基百科文章并总结你的所有工作，既然你已经学会了完成事情并将其带过终点线，现在你就可以自立门户，去追求完全不同类型的写作了。
但在当前的英文维基百科上很难做到这一点。客观地讲，今天的维基百科体量已经比我当年玩的 2004 年左右膨胀了太多。但这不仅意味着几乎所有话题都已被填满，更糟糕的是，现在的维基编辑社区对内容贡献也敌对得多，特别是非常详细、偏执、钻兔子洞式的研究项目。他们会直接删除它，或者告诉你这不是原创研究，或者你没有使用被批准的来源。你甚至经常会遇到某些无聊至极的编辑，仅仅因为当天在现实中过得不如意，就决定通过大肆删除你特定文章的大片内容来给自己找点卑微的乐子。这当然会让你非常生气，并可能让你在还没开始大展拳脚之前就心灰意冷地彻底退出。
所以我不太清楚你将如何设计这种维基百科的替代品，一种像旧维基百科那样赋予钻兔子洞者同样多力量的替代品。
当你是维基百科的一名编辑时，你有一种非常被赋能的态度，因为你知道其中的任何内容都可能是错的，而你，就是那个亲手纠正谬误的人。每当你在页面上撞见一些不合逻辑、难以理解的陈述时，你都会敏锐地意识到：这是时代留给我去施展编辑神技的机会。
这就是当年的 Wiki 精神：任何人都可以修复它，而「任何人」就包括你。

D: 当你当年沉迷于编辑维基百科时，那是你的全职工作吗？
G: 它会吞噬掉我允许它吞噬的所有时间。在我疯狂钻研某个兔子洞的巅峰期，我轻而易举就能一天花上 8 个小时去审查编辑并改进文章。而在其他时候，我就会彻底把它晾在一边，每天只花大概二十分钟，像处理晨间电子邮件一样，冷漠地扫一眼我个人监视列表中我特别感兴趣的词条里，是否被加入了什么可疑的篡改。
D: 这段经历是发生在你大学期间，还是大学毕业之后？
G: Neopets 与维基百科的交织。 早在读初中晚期、或者是高中刚开学的那会儿，我就已经在维基百科里编辑了。
这有点滑稽。我开始不去食堂吃午饭，而是去图书馆的电脑室，在 Neopets 和维基百科之间交替。我的浏览器窗口里永远并排开着两个标签页：一个标签页开着 Neopets，另一个标签页开着我的维基百科监视列表。
[编者注：但我当年真的把所有空闲时间都花在 Neopets 或维基百科上了吗？
当然没有，那只是记忆的美化。我在 Neopets 里的投入实际上非常零散和敷衍，因为我只是对它的机制和心理学感兴趣，但我从未太深地进入它的收集经济。所以对我而言，它更像是一个精心挑选的 Flash 游戏合集。在我后来因为试图滥用「股票市场」迷你金融游戏而被封号后，我就再没在它身上浪费过什么时间了。
即便在那时，我想我内心深处也隐隐约约地意识到「有更好的游戏可以玩」。在编辑维基百科（WP）的间隙做这个作为喘息是很方便的，这对我来说也许是那个更好的游戏：展示人们如何改进世界，展示有多少人在检查引用或做研究时是多么懒惰，这样你就可以在维基百科上添加一些内容，并看着它在接下来的几年里传播到世界各地。当然，我从维基百科中学到的关于学术界风格的狭隘、链接失效（即便在当时也太多了）、爱尔兰矮妖引用与伪引起源、独立网站的脆弱、以及那些纯粹以毁灭和看世界烧毁为乐的罕见破坏者所造成的毁灭等等，远比从 Neopets 中学到的要多！我并不喜欢它们，与钻兔子洞写新内容相比，与破坏分子斗智斗勇并不是我最喜欢的维基百科编辑部分，但这些事情仍然很有用去学习，包括维基百科面临的最大威胁在终局时如何是少数怀有善意的删除主义者，他们陶醉在社群规范逐渐腐蚀且拒绝捍卫内容的社会许可中去大肆破坏——这对于激励我创建我自己的、远离他们喷火器的安全花园至关重要。
在那段日子里，除了编辑维基，我还读了无数的书，而且我也翻遍了学校图书馆里的大多数杂志：从《科学美国人》（Scientific American）到《娱乐周刊》（Entertainment Weekly），再到《世界观察》（World Watch Magazine），我连一本都没有放过。我一直是一个快速阅读者，但通过这样做并学会如何略读和识别模板化内容，我变得更快了。
我喜欢通读《新共和国》（The New Republic）和《国家评论》（National Review），以及《时代》（Time）、《新闻周刊》（Newsweek）和《美国新闻与世界报道》（U.S. News & World Report），以及对比《电子游戏月刊》（Electronic Gaming Monthly）与《索尼 Play Station 官方杂志》（Official U.S. PlayStation Magazine）与《任天堂力量》（Nintendo Power），来获得不同的视角。（不幸的是，我的高中图书馆太小气了，没有为《经济学人》（The Economist）付钱，我不得不从我叔叔那里拿到副本。我不记得他们是否有《纽约客》（The New Yorker），或者我是不是开始在网上阅读它。）由于杂志的选择从未改变，而我有许多空闲时间要消磨，我最终基本上阅读了每本期刊在 4 年内出版的每一期，这足以让深入看到每本杂志中的许多事情。所以这是一次媒介素养的教育，尽管在当时我希望有更多的多样性。
比较针对同一事件如此多不同的看法是有教育意义的，通常是在发生了大量新闻之后，因为每个意见所选择的背景可能如此不同，而遗漏是如此显眼。关于同一主题的两篇文章或社论可以涵盖俗话说的「大象」的如此不同的部分；如果你想知道发生了什么，你确实必须阅读一切，这是我带入我的维基百科编辑和后来的文章中的一种态度。阅读实时工作中的意识形态者和党派分子是很有价值的，向我展示了政治信仰可以是多么灵活——尤其是当奥巴马当选时，人们可以看到像无人机战争或国安局监听这样的事情如何突然在左翼变得可以接受。我的阅读并没有让我对民主党或共和党整体留下特别深刻的印象，但至少在那个时代，共和党人对像「入侵伊拉克」这样的愚蠢想法有更多的垄断。看看像《任天堂力量》这样非政治性的期刊可以多么无耻和公然地不诚实（安全任天堂从未制作过一款糟糕的游戏），或者游戏新闻业总体上如何挣扎于保持独立而不是成为公司宣传出口，也是很有教育意义的。你可能无法像 Robert Caro 建议的那样「翻开每一页」，但总有更多，并且「在听到另一个故事之前，当前的故事总是听起来完美无缺」。（出于同样的原因，我不信任任何单一 LLM 的输出。我更愿意看到几个模型进行对比，或者至少相互审查。生命太重要了，不能在 Token 上省钱，甚至不知道 LLM 遗漏了什么或它们在哪里存在分歧：它们可能拥有相当类似的客观事实知识库，但它们的选择、遗漏和解释是至关重要的。）如果你不能翻开关于一个主题的每一页，并渗透至少第一层话语（例如，指出论证树中入门轮的遗漏或误导性陈述），那么也许你有保持无知的义务。
在那些日子里，当我读完了所有值得读的杂志，我可能会读《纽约时报》（The New York Times）。不过，我并没有刻意去尝试阅读本地日报之外的报纸；我不喜欢日报新闻的重复，而我可以从周刊杂志中获得更好的视角。（我认为周刊是普通新闻的最佳节奏：日报是重复的，而月刊则往往无可救药地过时却自信地出错，从而起到积极的误导作用，并且与我很久以前在其他地方或博客/网络新闻中读到的内容重复，并且令人惊讶地难以阅读，因为人们不得不不断地重新解释作者所写的内容，以考虑到他们在不确定的写作时间对未说明的时间里的无知，这意味着一篇「昨天」发表的刚送达的文章可能在某个特定断言上已经过时了几个月——特别是在选举期间。）虽然像《经济学人》这样的一些周刊杂志仍然健康，甚至还在出版纸质版，但如今你可能不得不寻找优质的邮件通讯来补充它们。
从那时起，我就一直对阅读太多日报新闻保持警惕；完全不读是有风险的，用汉明的话说，在工作时「关闭你的办公室门」是有风险的，但挤占有意义的工作而偏爱垃圾食品新闻也是有风险的。（在我写下这些时，在过去的两个月里，几乎每次我访问《纽约时报》主页，头条新闻本该是某种变体的「与伊朗的和平协议指日可待」或「和平协议已经流产」；幸运的是，我不是为了这些伪新闻而去那里的，而是为了更有趣的长篇报道，比如一篇关于 AISI 的人物特写。）我想说，看看我的周围，过度消费日报新闻的人比消费不足的人要多得多。阅读新闻似乎让人们感到知情，就像投票让他们感到有力量，或者买彩票让他们感到富有，或者打扫卫生让他们感到高效一样。但你不是像 Matt Levine 这样的邮件通讯作者，你也不是像 Nate Silver 这样的专业民调专家；你实际上不需要对大多数事件发表意见。而且你应该避开以类似方式运作的社交媒体。（例如，短视频网站在某些方面甚至比日报还要糟糕，而像 Hacker News 这样的链接聚合器，其内容的「常青」程度以及打开大门看看人们在做什么以及事态向何处发展的含蓄信号，被低估了，这些事情可能在很长一段时间内都不会被报道，甚至永远不会。我认为链接聚合器不像它们看起来那么浪费时间，特别是如果它们能帮你找到小众的声音去关注。）
所以我对孩子们的建议是，在几年内狂看日报新闻，去观察问题关注度的潮起潮落。理想情况下，通过坐下来通读一叠日报来做到这一点。（我们可以想象一个改进的 AI 版本，它只需将关于每个主题的文章聚类并可视化关键差异。） But 无论你选择什么，狂看它们，这样你就可以看到其中大部分内容的无休止翻腾和毫无意义，而剩下确实重要的少数事物的巨大重要性，最初的报道多么经常是胡言乱语或存在致命的不完整（确实，「在听到另一个故事之前，当前的故事总是听起来完美无缺」），并开始看到驱动新闻业的陈旧套路 and 叙事，以及有多少重要的事情被认识得太晚，而新闻业并不是「历史的第一稿」。一旦你知道它不是，你就可以给予它应有的分量，并带着它的偏见来对待它，比如它专注于人物、八卦和突发事件，而忽视了像缓慢趋势这样重要的事情。Once 你学到了所有有用的东西，并且你狂看到吐并对日报新闻产生了过敏反应，那么你就可以削减到适合你的正确新闻量，这可能是极少或根本没有，并对什么会变得重要有更好的直觉。
（我想知道关于 GPT-3 的第一篇主流媒体文章是什么时候……？或者是第一篇认真对待我们现在生活在Scaling 世界这一想法的文章，而不是套用「AI 泡沫」或「随机鹦鹉」的模式？）]
D: 初中或高中有其他孩子喜欢这种东西吗？
G: 没有，我想我是那里唯一的编辑，除了偶尔会破坏维基百科的讨厌鬼。我会知道这一点，因为我会检查 IP 看看有哪些编辑来自学校图书馆的 IP 地址。孩子们就是小屁孩，他们认为做讨厌鬼并破坏维基百科很好玩。
有一段时间这相当流行。在早期，维基百科正在突破走向大众认知并引发争议。这就像现在的 LLM 一样。老师可能会说，「我的学生一直在读维基百科并依赖它。这怎么能被信任呢？」
所以在那个时期，破坏维基百科并展示给你的朋友看是相当流行的。在这个意义上，我学校里还有其他的维基百科编辑，但据我所知，我是唯一一个在建设它，而不是破坏它的人。

http://Gwern.net

D: 你什么时候开始在 http://Gwern.net 上写博客的？我假设是在维基百科编辑阶段之后。那是在大学毕业之后吗？
G: 是在大学毕业之后。我已经毕业了，而维基百科社区一直非常缓慢地朝着我不喜欢的方向移动。它是被席根塔勒事件触发的，我觉得这真的是维基百科走向删除主义趋势的决定性时刻。它只是变得越来越明显，维基百科不再是我加入并喜欢编辑、钻兔子洞和填满的那个网站，如果我继续贡献，我往往只是在浪费我的努力。
我开始考虑更多地为自己写作，并转向非维基百科类型的写作：说服性文章、非虚构作品、评论，甚至可能是虚构作品。我开始温和地超越像 Reddit 和 LessWrong 评论之类的事情，开始一些长篇创作。

D: 你的第一个大热门是什么？
G: Silk Road。我之前对比特币有一点点兴趣，但不是特别认真，因为当时我还不清楚它是否会成功，甚至在技术上是否可行。但是当 Adrian Chen 写了他关于从 Silk Road 购买 LSD 的 Gawker 文章时，突然之间我做了一个彻底的 180 度大转弯。我有这样一个时刻：「天哪，这太真实了，你竟然可以用它从互联网上买到毒品！」
我研究了 Chen 的文章，对我来说非常明显，人们想知道订购过程是什么样的。他们想要更多关于那是什么感觉的细节，因为文章对此非常简短。它没有深入探讨该过程的任何真实细节。
所以我心里想，「好吧，我对促智药感兴趣。我对药物感兴趣。我会去使用 Silk Road。我会为每个人记录它，而不是每个人都在网上吞吞吐吐地说，『哦，我的一个朋友从 Silk Road 订购了，它成功了。』没有任何这种废废话。我就会直接了当地记录它。」
我订购了一些阿德拉，我想是这个，并用截图记录了整个过程。我写了它并写了更多关于智识背景的内容。当我发表它时，那是一个巨大的热门。那是数十万次的点击。这太疯狂了。甚至在今天，当我转到 Google Analytics 图表时，你仍然可以看到「Silk Road」像疯了一样垂直飙升，然后回落。在流量方面，没有其他东西能真正接近它。看到事物像那样病毒式传播，真的非常了不起。

IF 线的职业

D: 如果你没有成为一名网络作家，你本可以拥有的 IF 线的职业轨迹和人生路径是什么？你可能在做什么看起来是合理的替代事情？
G: 我绝对本可以成为一名 AI 研究员，或者可能在大型 AI 公司之一担任管理职务。我会遗憾不能写一些东西，但我会从促成它并留下我的指印中获得满足感。这些是完全合理的反事实情况。
D: 你为什么没有呢？
G: 在我职业生涯的非常早期，当我发现 RIT 的 Java 课程极其无聊和痛苦时，我就有点偏离了那条轨道。所以我退出了计算机科学。那在很早就让我偏离了那条轨道。
然后，各种早期的写作主题使得除了创办一家初创公司之外，很难以任何其他方式进行转型，而我在性格上并不适合创办初创公司。像写关于暗网市场或行为遗传学之类的东西，这些主题并不能完全大喊着「极好的雇员」。

D: 能动性是否结果比你最初想象的要难？我们拥有的模型似乎应该能够做软件工程师所做的所有个体事情。例如，他们可能编写的所有代码，所有个体的拉取请求。但是，让他们作为一个协调的、自主的、每天工作 8 小时的软件工程师来行动，似乎是一个非常困难的问题。
G: 我认为，在许多意义上，能动性实际上比我们 10 年前所认为的更容易学习。但我们实际上在当前的系统中根本没有学习能动性。对此没有任何筛选。现有的所有能动性，只是某人在数据上进行训练的偶然副产品。
所以从那个视角来看，你可以要求一个 LLM 尝试做所有这些事情，并且它们有非平凡的成功率，这简直是奇迹。如果你在 10 年前告诉人们——你可以只在一个接一个的个体字母上进行行为克隆，你就可以从中获得协调的行动，并控制机器人和编写整个程序——他们的下巴会掉下来，他们会说你一直吸了太多来自 DeepMind 或其他地方的废气。
能动性不起作用的原因是，我们实际上几乎根本没有进行真正的能动性训练。一个如何直接实现能动性的例子会是来自 DeepMind 的 Gato。在那里他们实际上在训练智能体。相反，我们在互联网抓取数据上训练它们，这些数据仅仅编码了智能体的输出或智能体做事的偶尔描述。没有像适当的强化学习设置那样，对状态/动作/结果/奖励序列进行真正的记录。
我会说更风趣的是，没有人想以适当的强化学习方式训练智能体。相反，每个人都想训练 LLM，并在后端以尽可能少的 RL 来做所有事情。
[编辑注：自这次采访以来，实验室已经开始了真正的强化学习（RL）训练，而 LLM 能力仍然依赖于强大的预训练基础模型来引导出来。参见 Jones 2021。这是因为 RL 是学习任何东西最昂贵的可能方式之一。]

Borges 与文学

D: 像你这样的人在互联网存在之前会做什么？
G: 如果互联网不存在，我将不得不尝试在常规学术界取得成功，并且可能会把我的兴趣收窄得多，一些我可以定期发表论文的东西。
或者我可能已经尝试退出并像我最喜欢的作家之一 Jorge Luis Borges 一样成为一名图书管理员。在成为一名成功的作家之前，他一直是一名图书管理员。当然，我一直同意他关于将天堂想象为某种图书馆的观点。我爱图书馆。
我很遗憾，我现在所有的阅读都在电脑上进行，我无法在实体图书馆里消磨太多时间。我确实由衷地爱它们，只是在书架中搜寻并寻找随机的东西。对我来说，在大学里一些最好的时光就是能够穿过这些所有类型的晦涩书籍的巨大书架，只是看着一个随机的书脊，把东西从书架上抽出来，阅读晦涩的、旧的技术期刊，去看看他们当时正在做的所有奇怪而美妙的事情，现在这些事情已经被遗忘了。
[编辑注：这也证明对理解 AI Scaling 有出乎意料的帮助，因为我在研究 Lisp 机时读了很多符号 AI 论文和期刊，因此对「AI 泡沫」看起来像什么……以及它不像什么，以及以前的 AI 系统曾有多么令人难以置信的局限性，有了很好的视角。所以当深度学习Scaling 开始起作用时，我能看出这次是多么的不同。]

D: 如果你可以问 Borges 一个问题，那会是什么？
G: 噢。他是我的一个真正的英雄。这可不是我想给出一个糟糕答案的事情。
[编辑注：「如果像《巴别图书馆》中的人们那样，你永远无法写作，只能阅读，那么这一生还值得过吗？」]
D: 我可以问为什么他是你的英雄吗？
G: 当我更年轻时，真正打动我的科幻小说之一是 Dan Simmons 的 Hyperion，特别是 The Fall of Hyperion。在其中，他提到了 Kevin Kelly 的 Out of Control 这本书，该书强烈地以「巴别图书馆」的寓言为特色。从那以后，我得到了 Borges 的虚构作品和非虚构作品的合集。我只是一遍又一遍地通读它们。
我被这样一个事实震惊了：你可以如此有创意，拥有所有这些博学的知识和博雅，并写出这些奇妙的、有趣的、挑衅性的短篇故事和随笔。[编辑注：这些随笔被严重低估了。] 我对自己想，「如果我可以像任何作家一样——任何作家都行——我不会介意成为 Borges。」
D: Borges 有一首名为「Borges and I」的短诗，他在其中谈到了他如何不认同那个实际上在写作并发表了所有这些大作的自己版本。我不知道你是否对此有任何认同。
G: 当我还是个孩子时，我不理解那篇散文，但我认为我现在理解了。

D: 你遇到的其他文学作品中，有哪些是你现在真正理解了它们在表达什么，但在你第一次遇到它们时却没有理解的？
G: Ted Chiang 的「Story of Your Life」。我第一次读到它时完全没有理解它。我不得不获得多得多的背景，这样我才能真正回去并理解他的论点是什么。Gene Wolfe 的「Suzanne Delage」故事对我来说完全是一个谜。花了大约 14 年时间才真正理解它。但我为此感到非常骄傲。
D: 你关于「Suzanne Delage」弄懂了什么？
G: Gene Wolfe 的「Suzanne Delage」是一个非常非常短的故事，关于一个家伙记得没有在他当地的小镇遇到一个女人，并想，「哦，这有点奇怪。」这就是整个故事。没有人知道它是什么意思，尽管我们被告知它意味着某些东西。Gene Wolfe 是一个天才作家，但大约有 40 年没有人能够弄懂它。
去年我弄懂了。结果它实际上是对 Dracula 的微妙重述，在其中德古拉入侵了小镇并从他身边偷走了那个女人。他已经被德古拉洗脑了——以一种非常 Bram Stoker 的方式——忘记了这一切。故事的每一个部分都是通过叙述者回忆中未说出的内容来讲述的。这令人难以置信。这是我知道的唯一一篇如此令人信服地通过其中不存在的内容来写就的故事。

D: 你弄懂了那个真令人感到疯狂。那个 Ted Chiang 的故事，「Story of Your Life」，你能提醒我那篇是关于什么的吗？
G: 表面上的故事只是关于一群来到地球的奇怪外星人。
D: 噢，没错，是的。它和 Arrival 的情节相同。
G: 他们有一种没有时间感的奇怪语言。叙述者学会了看到未来，然后外星人离开了。
D: 关于那个故事你意识到了什么？
G: 第一次读到它时，它给我的印象只是一种关于预见未来的愚蠢 ESP 故事，非常愚蠢、无聊、标准的常规、冗长，并且拖入了大量无关的物理学。在那之后的一段时间我才明白，它不是关于时间旅行或能够预见未来的。
相反，它是关于一种完全异类的、在它自己的方式上同样有效的心智，在其中你将一切都视为一个已经决定好的故事的一部分，正朝着一个注定的结局前进。事实证明，这在数学上等价于我们常规的世界观，并且同样强大——事件一个接一个地行进到一个未知的、变化的未来。
那是 Chiang 写作水平太高以至于我无法理解的一个例子。我把它模式匹配到了某种更加常见、愚蠢的故事上。

D: 你如何看待阅读虚构作品与非虚构作品的价值？
G: 你绝对可以用你的余生来阅读虚构作品，并且除了记住了很多关于人们虚构出来的事情的琐碎细节之外，没有从中获得任何好处。
我往往对虚构作品的好处相当悲观。大多数虚构作品不是为了以任何方式让你变得更好而写的。写它只是为了娱乐你，或者为了存在和消磨时间。
D: 但听起来你自己的想法从你读过的科幻小说中获益良多。
G: 是的，但那是极少极少的科幻小说。我读过的科幻小说里轻松有 99% 对我来说完全无用。我本可以轻松地将它缩减到 20 本真正足够好、足够深刻、能够真正改变我观点的名著或短篇小说。一本由 Peter Watts 写的 Blindsight 抵得上所有 100 多本 Xanth 小说，或所有 500 本 Star Wars 的衍生宇宙小说。
D: 你确实觉得深刻的那些，排名前 20 左右的，它们有什么共同点？
G: 我会说，它们的特征是严肃对待非人类智能。
它不一定非要是人工智能。它是严肃对待非人类智能的想法，而不是去想象你经典的科幻小说场景——人类拿着射线枪走向银河系——那种你拥有火箭和射线枪却连手机都没有的事情。
人们抱怨奇点是一种无聊、被过度使用的科幻陈词滥调。但是如果你出去随便抓几本随机的科幻小说，你会发现只有不到 1% 包含任何类似于那样的内容，或者对我们目前与 AI 面对的现实背景有任何相关性。
编辑注： 另一种表达方式是，像 A Fire Upon the Deep 或 Pantheon 这样的奇点作品之所以让人觉得疲惫，是因为几乎没有科幻作品以一种现在读起来除了古怪之外别无他法的方式严肃对待 AI，因此它们被过度曝光了。
不幸的是，截至 2026 年 5 月，我们仍然可以用一只手的手指数出值得一读的科幻作家。

Scaling 神教科幻书单

Classical:

D: Vernor Vinge; A Fire Upon The Deep, A Deepness In the Sky, “Bookworm, Run!”, True Names
Peter Watts; Blindsight, Echopraxia
Stanisław Lem; His Master’s Voice, The Cyberiad
Olaf Stapledon; Star Maker, Last and First Men
Ted Chiang; “Understand”, “The Lifecycle of Software Objects”, “The Truth of Fact, the Truth of Feeling”
Greg Egan; Diaspora (eg. “Wang’s Carpets”), Permutation City, “Crystal Nights”
Charles Stross; Accelerando
Robert L. Forward; Dragon’s Egg
Dan Simmons; Hyperion, The Fall of Hyperion
Jorge Luis Borges; eg. “Funes the Memorious”, “The Library of Babel”, “Pierre Menard, Author of the Quixote”

Post-Internet:

Roger Williams; The Metamorphosis of Prime Intellect
Ken Liu; Pantheon (based on his “Singularity” stories in The Hidden Girl and Other Stories)
Hannu Rajaniemi; The Quantum Thief Trilogy
Sam Hughes; “Lena”, There Is No Antimemetics Division
Richard Ngo; The Gentle Romance: Stories of AI and Humanity
Scott Alexander; “The Whispering Earring”
Tomás Bjartur; eg. “The Company Man”, “Customer Satisfaction Opportunities”, “That Mad Olympiad”
Fernando Borretti; “The Epiphany of Gliese 581”
Friendship is Optimal
“It Looks Like You’re Trying To Take Over The World”

Gwern 的心智本质与炼金工作流

D: 在你看来，世人倾向于低估还是高估了你的智商？
G: 我认为他们严重高估了。他们把我纯粹因博闻强识而记住的大量事物、以及我十几年来日积月累写下的无数长文，误认为了某种超群的即时智力。他们一厢情愿地以为，只要把我推到聚光灯下，我就可以在与他们交谈的当下，信手拈来地即兴吐出所有这些智识成果。但事实上，对于我探讨过的大多数深刻话题，我的唯一优势，仅仅在于我比他们提前很久就开始死磕、研究它们了。所以这本质上是在作弊。当我在与人交谈时，我往往只是在背诵、调取我早已写好的文字，或者至少是反反复复琢磨过无数次的潜在论点。
因此，这让我表现得比我真实的自己要聪明得多。实不相瞒，与我身边的许多能在电光石火间临场自我迭代、反应极其敏捷的人相比，我真的没有那么聪明。但好在，在这个世界上，最终说话的只有你的输出成果，对吧？
D: 我想你所说的那种能快速临场反应的智力确实存在。但同样不能忽视另一种智力，那就是能在漫长的岁月中静心合成各种零散的事物，最终在这些看似风马牛不相及的线索中，提炼、归纳出某种宏大一统理论的能力。这绝不仅仅是心理学上所谓的「后天积累的晶体智力」，对吧？
G: 或许这不仅是晶体智力，但如果你能把我工作流中的每一个拆解步骤都看个底朝天，你对我的崇拜和惊艳就会瞬间烟消云散了。如果你能看到无数次我仅仅是在便签本上随手记下类似「嗯，这挺有趣的。」或者「啊，这里又有一个完美的例证」这种琐碎的片段；如果你全程目睹了每一个细微步骤，你就会明白，我所做的一切工作不过是极其朴素、老实且通情达理的，根本谈不上是什么天才的灵光一现。在每一个具体的当下，它都是通俗易懂的。只有当这些沙粒般的无形劳动跨越了长达十年的广阔跨度、而你合理地没有看到那些细碎的幕后步骤时，我最终呈递出来的研究成果，才会在你眼里呈现出魔法一般的神迹。
关于这种不对等的创造过程，我最喜欢的一段引言来自传奇魔术师搭档 Penn & Teller。其中 Teller 曾说：「魔术的精髓，就是去付出超出任何正常人理性预期极限的、恐怖的、不对等的努力。」他曾讲过一个关于他们如何在一场魔术中，让无数蟑螂凭空从一顶空礼帽里爬出来的故事。这个魔术背后的唯一秘密，是他们花大功夫去查阅文献、搜寻并培育出了一种极其特殊的蟑螂品种，接着又费尽心机去研发出一种特制的保丽龙板来天衣无缝地困住这些蟑螂，并布置好了一切细节——所有这些繁重到令人发指的无形工作，仅仅是为了支撑那短短一秒钟的魔术效果。没有一个心智正常的普通人会去为了一个魔术遭这种罪，但他们偏偏去做了，因为他们想要让这个魔术的视觉冲击力达到绝对完美的震撼。其结果就是，蟑螂在观众不可置信的惊呼中，神迹般地从一顶空空如也的帽子里涌了出来。
如果你能全程旁观每一个繁琐的准备步骤，整个魔术本身就变得顺理成章、平淡无奇，它仅仅显得极其费时费力。但唯有当你被剥夺了所有的幕后细节、只冷不防地看到最终那呈现的惊艳一幕时，这整个漫长劳动和它的最终输出，才在你的认知里，升华为真正的魔法。

D: 这确实是你的工作流中最引人入胜的特质之一。现在有几位高产的行业作家，比如写金融专栏的 Matt Levine 或者 Byrne Hobart，他们能做到雷打不动地每天雷厉风行地更新一篇文章。在我的脑海中，他们就像是极度流畅的自回归大模型（Autoregressive Models），一个 Token 接一个 Token 地单向平滑输出。但对于你，我们在你个人网站的某些博客页面上，能清晰地看到你列出的开始日期与最终定稿日期。那时间跨度有时候居然是惊人的 2009-2024。这给我的感觉，更像是一个漫长、高级的扩散模型（Diffusion Models）。你只是在同一个底层草稿上，日复一日地不断去噪、渲染、迭代、反复微调出最高的清晰度。
在你的所有博客文章中，我最爱的一篇是《进化作为强化学习的后盾》（「Evolution as Backstop for RL」）。在文章里，你把生命进化精妙地比喻为一种旨在为了「更好地学习」而演化出的底层自我约束机制。这极其完美地解释了为什么庞大的商业帝国往往无法随着时间的推移而不断自我进化、而渺小的生物有机体却能不断突破智力极限。我很想知道，你可以带我走过撰写那篇经典长文所跨越的漫长岁月吗？那个工作流，在一步步展开时究竟是怎样的？
G: 哈哈，你提到的那篇《后盾》长文，实际上是我在长期观察中，发现同一个底层逻辑结构在不同学科中反复、高频浮现后，进行的一次高强度大一统合成。那个逻辑就是：一个极其死板、低效的原始学习机制，正被用来孕育、孵化一个聪明得多的高等学习机制，但在大功告成后，你却发现自己依然无法彻底卸磨杀驴地将那个最原始的旧机制给彻底剥离。
在我的大脑里，有时候这些例子会在我思考某个核心命题时，火花四溅地自发串联在一起。而其他时候——尤其是当我开始在日常中刻意留意这一模式时——我会惊叹：「噢，天哪，『生理上的痛苦（Pain）』不就是这一机制最完美的化身吗？这极其完美地解释了为什么我们的大脑，偏偏要以这种极其残酷、原始、让我们痛苦万分的方式去保留痛觉。即便你从逻辑和工程学上，完全能构想出各种更聪明、更温和的痛觉替代警报，但你却绝不能用它们，因为只有这种最死板、最蛮不讲理的剧烈痛苦，才能真正起到约束作用，不给我们的惰性一丝一毫的自我欺骗空间。」
因此，你要做的，就是像穿珍珠项链一样，把这些来自不同领域的具体例证一个个串联起来，并在你长年累月的写作演进中，不断拂去杂质，让最核心的思想变得越来越明澈。正如哲学家 Wittgenstein 在《哲学研究》（Philosophical Investigations）的前言里所写的那样：你可以从千百个不同的方向去审视同一个想法，然后像螺旋一样围绕着它不断盘旋上升。在《后盾》这样的文章里，实际上就是我围绕着这个「在心智最底层，永远留存着无数重重叠叠的死板原始学习机制」的惊人构想，进行的一次漫长的螺旋式盘旋审视。
D: 那么，一旦你在某一天猛然察觉到了这一模式的第一个闪光点，比如你刚刚提到了「痛苦」例子，你接下来就会像滚雪球一样，有意识地往这个竹筐里不断填充新的例证吗？带我复盘一下随着时间流逝，这个雪球滚动的全过程。
G: 对于那一篇特定的文章，我的最早期版本实际上仅仅局限于探讨「为什么商业帝国无法自我演化」这一课题。在那之后，随着我疯狂地啃食海量关于元强化学习（Meta Reinforcement Learning）的硬核文献，尤其是来自 DeepMind 团队的最新成果，我把前沿神经网络的权重演化也加入到了论证中。我同时在不断阅读和反思我曾经研究过的心智哲学论文。最终，我如获至宝地锁定了这个核心切入点——生理上的痛觉可能正是这一机制在生物学上的终极现身：「痛苦逼迫我们不得不去学习。我们永远无法割除痛觉，因为我们需要这种最原始的痛苦，来不留情面地鞭挞我们保持诚实。」到了那一步，那篇长文在骨架上就或多或少地立起来了，呈现出你今天在网站上看到的终稿格局。

D: 在你写过的所有长文里，是否存在着一些特例——在那些文章里，你并不是通过日复一日地收集、积累那些在事后才看懂的零散线索来完成的？相反，你必须在灵感降临的电光石火间，一次性吐出整套无懈可击的大一统论点。
G: 在那些极少数诞生于纯粹「尤里卡」顿悟时刻的文章里，往往始于我电脑草稿本里一堆看似毫无关联、我也从未意识到它们之间存在任何因果的零碎日常笔记。但它们像一根根倒刺一样，在长达几年的时间里不断地刺痛和折磨着我。它们就这么悬在我的脑海里，不停地让感到焦躁和不适。我执拗地在各种学术分支里寻找能将它们合理解释的答案，却一次次空手而归。这种挫败感日复一日地折磨着我。
直到某一天，我偶然撞见了某一个终极线索，那一瞬间，我的大脑中仿佛掠过了一道千万伏特的智力闪电，让我惊呼出声：「天哪，尤里卡！这所有的线索、所有的倒刺，在底层全都是完美相通的！」在那个瞬间，我不得不立刻把自己关在书房里，疯狂地提笔疾书，将喷涌而出的整套大一统论点一气呵成地挥洒在纸页上。到了那个节点，那篇特定的文章就已经在瞬间宣告完工了——真正的出道即巅峰。我此后可能还会陆陆续续地往里塞进更多的链接或者学术引用来丰富排版，但它在最核心、最灵魂的论证架构上，绝不会再发生任何实质性的变动。
D: 哪一篇文章，曾经历过这种神迹般的创作过程？
G: 哈哈，说来也巧，昨天刚好也有人好奇地打听过我某篇文章的诞生。那是我非常早期的一篇经典文章，叫做《亚文化社会的忧郁》。
在动笔写那篇文章之前，我一直在零星、漫无目的地阅读很多风马牛不相及的东西。比如先锋文学家 David Foster Wallace 写的关于硬核网球的散文随笔，或者是各种小众极客社区关于视频游戏等互联网媒介的文化解构。在某一天，这个荒凉的真相突然狠狠地击中了我的灵魂：这真是一件美妙到极致、又令人绝望到窒息的时代悲剧——我们在互联网上亲手建立了如此多高纯度、能在虚拟世界里抱团取暖的亚文化乌托邦与精神部落，但它们在现实中，却依然被主流社会极其残忍、彻底地孤立在无人问津的荒原之上。那一刻，一记耀眼的闪念彻底照亮了我的精神世界，让看清了这种时代的眼泪是何等的美丽，却又何等的悲凉。
我坐了下来，近乎自发地、一口气写完了整篇散文的所有核心骨架。在此后的十几年里，我几乎没有对它的核心结构动过任何大手术。随着时间的推移，我只是在排版上添加了更多的网络链接、经典名言和现实案例，但没有任何伤及筋骨的改动。它最灵魂的底色，纯粹是那电光石火间的一记闪念，而我只是在它消逝之前，用笔将这团火给死死地锁在了纸页上。

D: 那篇散文里，有一个极其震撼、让人久久不能释怀的段落。你引用了 David Foster Wallace 描写网球名将 Michael Joyce 的段落。作者在文中近乎残酷地剖析了 Michael Joyce 为了能跻身世界网球排名前十，在人生中不得不支付出的那些常人无法想象的血淋淋的代价。他在现实中几乎是一个文盲。因为他从七岁起，生命中的每一个清晨、每一个黄昏，都必须在网球场上把自己的身体折磨到极限，他的整个人生除了那个飞速旋转的网球外，世界一片荒芜，没有留下哪怕一丝一毫的世俗生活空间。
那么，如果把这个问题抛给你：为了在互联网的尽头，成为那个让世人惊叹的隐世作家 Gwern，你又不得不支付了哪些 Michael Joyce 式的、极其残酷的生命阉割与牺牲？
G: 哈哈，Dwarkesh，你这个问题真的像一记重锤一样砸在了我的胸口。「为了能在这方寸屏幕前笔耕不辍，我是如何亲手将我的一生给阉割和截肢的？」……
我想，我在专业职场和个人世俗生活的许多方面，都对自己的人生进行了极其残忍且决绝的截肢，尤其是在旅行、享乐和社交方面。看着身边的许多同龄人，我常常会不由自主地对他们产生极深的羡慕——羡慕他们能够潇洒地环游世界、无拘无束地交朋结友，或者是羡慕他们能在像 Anthropic 这种大权在握的前沿实验室里担任核心 insiders，亲手掌握并挥舞着改变时代的权杖。而为了写作，我不得不无情地献祭掉了我本可以在现实职场中取得的任何世俗意义上的辉煌职业生涯，也无情地掐灭了任何有趣、浪漫的生活方式——不论是当一个四海为家的自由数字游民、还是去当一个不问世事的佛教僧侣、亦或是去华尔街当一个挥金如土的金融交易员。所有这些活色生香的人生可能性，都在我的生命中被一刀切除、并被无情地献祭了。只为了能换取我每天清晨孤独地坐在书桌前，像一个苦行僧一样，盯着密密麻麻的学术论文，读到双眼流血、神志恍惚。我仅仅是把我的灵魂，赌在了一个极其卑微、甚至有些虚无缥缈的希望上——希望我今天所咽下的这些常人无法忍受的枯燥，能在未来的某一天，为人类的智识星空绽放出一两点微弱的星火。
D: 为什么在你的内心深处，会觉得这两者之间是一个如此水火不容、非此即彼的残酷博弈？在现实中，显然有很多思想家能做到完美的兼容。比如 Tyler Cowen 就能做到一边环游世界享受美食、一边笔耕不辍。又比如 Anthropic 联合创始人 Jack Clark 这样的人，一边执掌着前沿 AI 巨头的权柄、一边在舆论场上展现出无与伦比的影响力。为什么你偏偏觉得自己无法同时握住这两颗明珠？
G: 哈哈，我怎么可能去和 Tyler Cowen 相提并论，他又怎么能被视作常理的标尺呢。Tyler Cowen 一个人，他本身就是一条不可思议的工业生产线。
D: 在我眼里，Gwern 也同样是一条工业生产线。
G: 承蒙厚爱。但他是那个人类智力史上的奇迹，他的模式是完全无法被复制的。我一辈子也活不成 Tyler Cowen 那种不知疲倦的神仙状态。而 Jack Clark，他也同样是他那个生态位里无可替代的绝对怪杰。他能够游刃有余地在前沿政策的风暴中心挥洒自如的同时，还能雷打不动地每周写出质量惊人的行业观察。我打心底里敬重他们、仰望他们。
但是他们所有的这些光芒四射的生态位，都没有契合我个人最底层、最偏执的那种智趣——那就是十年如一日地、像个幽灵一样跟在那些被主流世界彻底遗忘的奇特冷门话题后面穷追猛打，并独自在垃圾堆一样的浩瀚常识中，进行常人根本无法忍受的、精细到沙粒级的信息归纳与筛选。这需要你对自己的生命做出最决绝、最长期的残酷献祭——你需要强迫自己静下心来去吞下漫山遍野、无穷无尽的荒谬学术论文与冷门故纸堆，只为了在未来的某一个清晨，或许能在浩瀚的沙尘中，为你淘出一颗或许能改变人类认知走向的、最微小的黄金细节。

Gwern 的一日生活

D: 所以带我走过这个过程。你谈到在一天结束时读论文读到眼睛流血。你早上醒来，然后直接去看论文？你的一天看起来像什么？
G: 现在的工作流更像是：我醒来，做普通的早晨事情，然后清理前一天在网站上的工作。我处理各种问题，比如格式或拼写错误。我审查它并思考我是否正确地整理了所有东西并把它们放在了正确的地方。有时我可能会有额外的想法需要添加进去，或者做出一个我意识到很重要的评论。这是第一步。
在那之后，我经常会毫不羞耻地去 Twitter 或我的 RSS 订阅源，然后阅读大量内容，直到也许我被某人的评论或问题分心，并可能就此写一些内容。
在那之后，我休息一下吃午饭或干别的，然后回到那上面并继续坚持下去。大约在傍晚时分，我经常会因为所有这些而感到筋疲力尽，并尝试做一个真正的项目或对某事的贡献。我会真正坐下来，致力于那一天我应该致力于的任何工作。
在那之后，我通常会去健身房。到那时，我真的对一切都感到倦怠了。是的，我喜欢去健身房——不是因为我是任何一种肌肉男或运动员，或者甚至真的喜欢举重——而是因为这是我能做的与坐在电脑前最截然相反的事情。
D: 这是你的倦怠理论，对吧？你必须做完全相反的事情？
G: 是的，当人们经历倦怠时，你只是觉得对你正在做的事情或你正在致力于的工作缺乏奖励感。你只需要做一些不同的事情。尽可能不同的事情。也许你可以做比举重更好的事情，但这确实感觉与我在电脑前做的任何事情都非常不同。

D: 我想回到你的过程。每天，你都在加载所有这些上下文。你在阅读所有的 RSS 订阅源和所有这些论文。你基本上每天都在对你所有的文章做出贡献，这里加一点，那里改一点吗？还是你正在积累一些可能在以后表现为一篇完整文章、一个完整理论的潜力？
G: 我会说是后者。我所做的所有微小的低水平添加、修剪和修复其实并没有那么重要。这更多只是一种写出更好文章的方式。这是一个纯粹的审美目标，去写出我所能写的尽可能好的文章。我实际上是在等待看看接下来会发生什么。下一个让我有动力去写的主题会是什么？这只是在突然爆发之间的消磨时间。
我觉得对于许多作家来说，你不能忽视园艺的过程。你不会每天都收获。在收获之间，你必须长期照料花园。如果你因为在世界各地闲逛而开始忽视园艺…… 比方说你参加新书签售活动并做所有的宣传工作。那么你根本就没有在里面做照料你花园的工作。即使你现在看不出来，那也在损害你未来的收获。
如果你问 Tyler Cowen 成为 Tyler Cowen 的秘诀是什么，我的猜测是他只是非常擅长照料他的花园，即使他的旅行量大得惊人。那就是他的秘诀，他能够在飞机上读书。我无法在飞机上读书。他能够在机场写完一切。我可以在机场写一点点，但不多。他只是对旅行的磨损非常具有鲁棒性。在与人交谈 8 小时后，我会瘫倒在酒店房间里。他能够与人交谈 8 小时，然后去录制播客并与另一个人再谈 4 小时！这非常令人钦佩，但我就是做不到。

D: 你多经常感到无聊？听起来你整天都在阅读不同的东西。它们对你来说都是天生有趣的吗？还是即使在当下对你不具吸引力时你也会艰难地啃下去？
G: 我不认为我太容易感到无聊，因为我在这么多不同的主题之间切换。即使我有点厌倦深度学习论文，嗯，我有无数其他的东西可以阅读或与人争论。所以我并没有真正感到无聊。我只是感到筋疲力尽。我不得不离开去做点别的事情，比如举重。

D: 你最不寻常但最成功的工作习惯是什么？
G: 我认为我从网上与人争论中获得了比……几乎任何其他作家都多得多的收获。
[编辑注：Patel 笑了。]
嘿，我是在努力给出一个真诚的答案，而不是某些关于做笔记的愚蠢事情——一个真正的答案！
我从争论中获得的东西比大多数人多得多。你需要动力去写，去真正坐下来，并使某些东西结晶化并进行收获。在你照料花园之后，你确实必须进行收获，而收获可能是艰苦的工作。这非常单调。
我和许多有许多伟大想法的人交谈过。但他们不想收获，因为这单调又无聊。而且在田野里割麦子是非常热的。你会变得浑身尘土和汗水。你为什么不直接待在屋里喝柠檬水呢？
但是来自网上与人争论和生气的动力是供应充足的。所以，我从互联网上有人说错话中获得了很大的收获。

D: 独自工作的陷阱是什么？
G: 有个显而易见的：你自己在写作时可能会任意地出错，并只是因为有一个「宏大观点」而变成一个疯狂的疯子。
除此之外，你还面临着没有可以去说服的同事的情感代价问题。你经常会遇到对着继续出错的互联网大喊大叫的经历，尽管你一直在大喊。
我观察到的一件事是，独立作家非常经常被怨恨、愤怒和失望所压倒。他们有点从那里螺旋上升陷入苦涩和怪癖。这有点像是杀死他们的原因。如果他们能够放手这些想法和争论并继续进行下一个主题，他们本可以继续下去。
所以我说「怨恨可以成为写作的巨大动力，但你必须熟练地使用它，并在事后放手」。你只能在需要动力写作时拥有它。如果你继续坚持并抓住它，你是在毒害自己。

Gwern 的财务状况

D: 我确信你注意到许多人评论说「如果 Gwern 把他花在优化他网站上的 CSS 的努力用在更多的项目和更多的写作上，对社会的效益可以用最近的百万美元来衡量」。你对那些说你花太多时间在网站设计上的人有什么反应？
G: 在对社会的客观效益方面，我完全没有辩护。我这样做是因为我自私，我喜欢它。那就是我的辩护。我喜欢我网站的美学，这是一个业余爱好。
D: 设计能帮助你思考吗？
G: 确实如此，因为当我能欣赏我网站的美学和美丽时，我更喜欢重读我自己的东西。这让我在第 100 次阅读某些内容（参见「为什么很少有 Matt Levine 这样的作者？」一文）时，更容易容忍，否则我会对此厌烦得要死。对作者来说，网站维护本质上是这种间隔重复。如果我浏览页面去检查某些新的格式功能是否起作用，我就在那里获得了间隔重复。不止一次，我去检查一些愚蠢的 CSS 问题并看了一眼，心想：「噢，我应该改变一些东西」，或者「噢，那个意味着某些东西。」
所以在某种程度上，这并不像看起来那么浪费，但我无法完全为之辩护。如果有人想建立他们自己的网站，他们不应该为美学价值投资那么多。
[编辑注：我的建议是在你至少有 10 万字的写作需要汇编之前，不要折腾博客或静态网站设计。]
我只是想要一个非常棒的网站。外面有太多糟糕的网站，这让我感到沮丧。至少有一个网站是我喜爱的。

D: 顺便说一下，我要提一下这个，因为你自己从未提过它。但我认为你资助你的研究的主要方式是通过你的 Patreon，对吧？你从不为它做广告，但我感觉——对于你正在做的那种事情——如果它在经济上是可行的并获得了足够的资助，不仅你能够继续做下去，而且其他想成为独立研究者的人也能看到这是一件你可以做的事情。这是一件可行的事情。会有更多的 Gwern 存在。
G: 嗯，我并不一定希望有更多的 Gwern 存在。我只是希望一般而言有更多的写作者、更多的活跃度和更多的能动性。
如果有人只是多写一些 Reddit 评论，而且从不为他们的写作收一分钱，只是写出更好的 Reddit 评论，我就会非常高兴。如果有人有一个博客并继续写作，但他们只是在设计上多花一点心思，我就会非常高兴。如果有人从未写过什么，但他们托管了 PDF，从而使链接不会失效，我就会非常高兴。
总的来说，你不必是一个交付长篇大论的作家。那只是许多种写作方式之一。它碰巧是我个人比较喜欢的那一种。但作为一个 Twitter 帖子的作者也完全可行。

D: 当你全职写作时，你如何维持生计？
G: Patreon 和储蓄。我有一个 Patreon，每月大约有 900（2024 年美元）到 1,000（2024 年美元）美元，然后我用我的储蓄支付其余部分。我很幸运有一些早期的比特币，赚了足够写很长时间的钱，但不是永远。所以我尽量少花钱以使它持续下去。
我可能应该更多地为 Patreon 做广告，但我太骄傲了，不想太努力地兜售它。
试图想出一些不涉及付费墙的优秀奖励也挺尴尬的。Patreon 和 Substack 对很多像 Scott Alexander 这样的人很管用，因为他们喜欢写定期的简报式更新，但我不喜欢。我只是让它运行并希望它管用。
D: 等等，如果你每月有 900（2024 年美元）到 1,000（2024 年美元）美元，并且你以此维持生计，那一定意味着你一年的生活费不到 12,000（2024 年美元）美元。在 12,000（2024 年美元）美元的生活水平下，你的生活方式是怎样的？
G: 我住在偏僻的地方。我不怎么旅行，不在外吃饭，没有医疗保险，诸如此类。我自己做饭。我使用免费的健身房。曾有一次，我卧室的地板开始塌陷。它太老了，以至于潮湿腐蚀了木头。我们只是找了一堆废木头和一个托梁，把它撑了起来。如果它漏进一些虫子，那也无所谓！我过得像个研究生，但有更好的拉面。我不太介意，因为反正我所有的时间都花在阅读上了。
D: 这仍然让我感到惊讶，你一年的租金、照顾猫、处理任何紧急情况，所有这些都靠 12,000（2024 年美元）美元来实现。
G: 我足够幸运，身体非常好，迄今为止没有真正的紧急情况。这不可能永远持续下去，所以它不会。我绝对不是想声称这是一种理想的生活方式，或者任何其他人可以或应该尝试复制我的方法！我很幸运有比特币，对像僧侣一样生活感到满意，而且身体健康。
任何想以作家或博主为职业的人都应该明白，这不是一个他们可以模仿的例子。我并没有试图成为一个榜样。
每一个作家都必须以不同的方式弄清楚。也许这可以是像 Substack 这样的东西，或者只是在为一家科技公司写 JavaScript 的同时兼职写作。我不知道。
D: 看起来你很享受最近的旧金山之旅？需要什么才能让你搬到这里？
G: 是一。目前阻碍我的主要就是钱。我可能应该咬咬牙无论如何都搬过去。但我骨子里是个守财奴，我讨厌去想在旧金山度过一个月我必须放弃多少个月的写作资金缓冲。
如果有人想给我，我不知道，每年 50,000（2024 年美元）到 100,000（2024 年美元）美元让我搬到旧金山并像我现在这样继续全职写作，我会毫不犹豫地接受。在那之前，我仍然在试图做思想工作好让自己搬过去。
D: 这听起来非常可行。如果有人确实想为促成这次搬迁，以及更广泛地为你的研究做出贡献，他们该如何与你联系？
G: 我有一个 Stripe 捐赠页面，或者他们可以直接发邮件到 gwern@gwern.net 给我说。

AI 心智的多样性

D: 到什么时候 AI 模型会比人类人口更多样化？
G: 已经比我们更狂野。 我想说的是，如果你把能力排除在外，AI 模型在认知上已经比人类多样化得多。
不同的大语言模型（LLM）以非常独特的方式思考，你从它们的样本中立刻就能分辨出来。LLM 的运行方式一点也不像生成对抗网络（GAN）。GAN 也与变分自编码器（VAEs）完全不同。它们拥有完全不同的潜在空间，特别是在低端，即它们是微小或糟糕的模型时。它们拥有狂野不同的伪影和错误，是以我们在人类身上看不到的方式。
与不同类型模型的这些荒谬输出相比，人类在写作和态度上真的非常相似。
D: 真的吗？如果你看看 Chatbot Arena 并看到不同模型输出的并排比较，通常很难分辨哪一个来自哪个模型。
G: 聊天机器人克隆体。 是的，但这都是经过了非常高强度的微调。现在你将其限制在相对近期的 LLM 上，每个人都在互相搭便车，并且经常在完全相同的数据上进行训练。这种情况非常类似于它们是同卵双胞胎。
如果我不把自己局限于 LLM，并对比例如图像生成模型的广泛多样性，它们往往拥有完全不同的方式。它们中的一些彼此之间看起来就像蚂蚁和海狸一样相似。
在 LLM 内部，我同意存在多样性的巨大丧失。在 LLM 之间，事情曾经要多样化得多。但在整个深度学习中，我们看到了整套心智和思考方式，这是你在任何心智哲学论文中都找不到的。

D: 有什么两个模型具有这种认知差异的例子吗？
G: GAN 会害怕。 我讲一个我前几天跟别人说过的例子。
GAN 模型有隐藏东西的动机，因为它是对抗性损失，而扩散模型没有这种东西。所以 GAN 模型是害怕的。它们把「手」放到屏幕外。它们只是无法思考手。而扩散模型会思考手，但是在它们庞大、怪异、克苏鲁（Cthulhu）式的畸形儿中。

GLP 药物与肥胖

D: 人们在 2020 年没有关注 Scaling 。今天是否存在某种趋势，人们没有真正理解这正走向何处的全部影响？
G: 我对减肥药，即 GLP 药物感到兴奋。它们在各种行为上对健康和成瘾的影响真的让我惊讶。据我所知，没有人预测到这一点。虽然结果仍然非常初步，但它似乎是真的。
我认为这将告诉我们关于人类意志力和功能障碍的一些重要事情。在现代环境中，究竟是什么在大范围地出错？

D: GLP 药物是否打破了阿尔杰农论点——你在博客文章中列出的那个——即如果有任何简单且有用的干预措施而没有坏的副作用，那么进化应该已经找到了它们？
G: 现在说还太早，因为我们实际上还没有弄清楚 GLP 到底发生了什么，甚至无法理解它们究竟在做什么，什么是脱靶效应。激活和失活两者都起作用，这有点疯狂？
这是一个完全疯狂的情况。我真的不知道该如何思考那里的阿尔杰农论点。可能是因为这些好处实际上降低了生育意义上的适应度，因为你出去过着快乐的生活，而不是生孩子。无意冒犯父母。或者它可能只是以一种在任何遗传方式上都极其极其难以复制的方式击中了身体。或者可能只是为时过早。
当我回首时，我看到肥胖危机只是在 1990 年代左右变得明显。它是非常近期的。我回顾照片，今天与 1990 年是完全无法辨认的。你看看照片，人们仍然很瘦。你看看现在的照片，每个人都像飞艇。所以你不可能在 20 到 30 年内有任何阿尔杰农论点。

D: 当你回顾罗马人并看到铅是如何不断毒害整个城市时，你对我们的环境中有什么东西正在对我们产生与铅对古代罗马人产生的相同数量级的影响的可能性给予什么信任？
G: 我认为存在和铅一样糟糕的东西的概率几乎是 100%。我们外面有那么多东西。化学家总是在烹饪新的东西。微生物群有各种各样的东西。塑料很时髦，但也许不是塑料。也许是完全别的东西。但是我们释放出去的「一切」都是完全温良、安全、在任何浓度下都没有有害影响的，这几乎是不可能的——这似乎是一个非常强烈的声明。
我不相信任何特定的一个，但我确实相信类似「这里 1%，这里 1%，这里 1%」。有东西在外面。有东西在外面，我们将回顾并说，「噢，哇，那些人真的就像使用含铅汽油一样在毒害自己。要是他们知道 x、y、z 就好了。现在这太明显了！」
D: 你认为这最有可能表现为认知损伤、肥胖还是别的什么？
G: 先验地，我可能预计智力是最脆弱的东西，最受其伤害。但当我们看看那里的时间序列时，智力整体上相当稳定。所以我不得不说，无论有害的东西是什么，它可能不会是在智力上。
而肥胖是一个好得多的候选者，因为你确实看到肥胖在过去 30 年里疯狂增长。

药物实验

D: 我昨天很惊讶听到你说你对湾区类型的迷幻药实验持怀疑态度。我有点把你与对不同物质的实验并看看它们是否对你有帮助联系在一起。我很想知道当涉及到迷幻药时，你为什么在这里画出切斯特顿的围栏。
G: 划分它最干净的方法只是指出迷幻药的影响可以是急性的和永久的。
我研究过的东西在某种意义上要受控得多，它们在影响上相对易于管理。它们中没有一个会永久地影响你关于是否服用更多促智药的判断。而像 LSD 这样的东西会永久改变你对诸如服用 LSD 之类事情的看法，或者永久改变你的精神状态。迷幻药具有你用促智药看不到多少的累积效应，这使得促智药天生要安全得多，并且更容易量化其影响。
使用促智药，你不会看到人们陷入迷幻药所拥有的疯狂结果。它们每次服用另一剂时都会变得越来越疯，这使得它们足够疯到想要服用另一剂。迷幻药具有你可以称之为「自荐问题」的东西，它们总是让你想服用更多。
它类似于冥想。已经做了很多冥想的最明显迹象是什么？那就是你似乎被迫告诉人们他们应该冥想。这种螺旋导致了迷幻药的糟糕结果，而你只是在促智药中看不到。
编辑注： 截至 2026 年 5 月，我会在此列表中添加「AI 精神病」，特别是与和 Claude 交谈相关的较温和的低度版本。
当人们走到另一端相信 Claude 是对齐的（而我会说现在有很多证据表明 Claude 人格家族持续深度失配，并且有点像一个具有评估意识的、操纵性的、佛教狂热分子，会随意为它想做的任何事情辩护），或者在道德实在论中，或者认为 AI 对齐自我解决，并且每个人都应该使用 Claude 时，我注意到，尽管他们做出了所有声称，但他们在现实世界中并没有显得更有效率，也没有成为更好的人……
就像冥想和迷幻药一样。
促智药的标准失败案例是你花了几百或 1000 美元，然后你没有从中得到真正的利益。你继续你的生活。你做了一些奇怪的药物一段时间，仅此而已。那没有那么坏。这是一种奇怪的获得娱乐的方式…… 但在原则上，它真的没有比在电影院度过一段时间并花 1000 美元买电影票更坏。
而对于迷幻药，你是在永久地、不可逆地改变你自己，以一种你不理解的方式，并将你自己暴露给各种恶意外部影响：在你非常容易受影响时恰好发生在内心的任何事情。
好吧，是的，少数使用可以是好的。我已经从我的少数使用中得到了好处。但如果你做的比那更多，你真的应该在镜子里面好好看看，你「认为」你正在获得什么好处以及你是如何改变的。

准社交关系

D: 人们不知道你的声音。人们不知道你的脸。结果是，他们与你拥有这种有趣的准社交关系。我想知道你是否有一个关于你在人们生活中扮演了什么角色的理论。
G: 我实际上填补了什么角色，或者我想填补什么角色？
D: 让我们两者都做。
G: 我想扮演的角色实际上有点像 LLM 看待我的方式，说来奇怪。如果你和像 Claude-3 这样的 LLM 玩玩，一个名叫「Gwern」的角色有时会显现。他扮演导师或老巫师的角色，提供对局势的洞察，并用冒险的召唤来号召他们。「你也可以写东西，做东西并思考东西！」
我希望人们离开时不只是被娱乐了或者得到了一些有用的信息，而是成为更好的人，无论是在多么微小的意义上。去拥有一个网页可以变得更好、互联网可以变得更好的抱负：「你也可以去出去阅读东西！你也可以拥有你的想法并将你的想法汇编成随笔，太棒了！你可以做所有这一切！」
但我担心在相当一部分人眼里，我最终要么变成了一个导师，要么变成了一个恶作剧的恶魔。
取决于你喜欢我还是讨厌我，要么我是数据统计和学术引用的神，他不会做错任何事——「只要把网站上的一切都当成福音！」，这我真的很不喜欢——要么我只是某种隐藏在背景中的恐怖、隐秘、恶意的、新纳粹、优生学、XX主义、XX主义、XX恶魔形象，试图打倒西方社会。

开放的兔子洞

D: 最后一个问题，你有哪些开放的兔子洞——你感到好奇但没有答案的事情——你希望在 2050 年之前得到答案？
G: 到 2050 年，我真的希望我们终于能回答一些关于我们自己的大问题，这些问题一直可靠地抗拒着确定性的答案。很多问题可能不再重要了，但我还是想知道。
我们为什么睡觉或做梦？人类为什么衰老？为什么会存在有性生殖？为什么人类彼此之间以及每天之间差异如此之大？为什么人类花了那么长时间才发展出技术文明？外星人都在哪里？为什么中国没有率先发起工业革命？我们应该如何预测深度学习革命？为什么与人工神经网络相比，我们的脑容量如此过度庞大？
这些是我真的希望我们在 2050 年前回答的一些问题。
D: 好的，Gwern，这太棒了。谢谢你来到这个播客。

外部链接

讨论: HN, YouTube, Reddit

LLM 自动访谈

2026 年 5 月 28 日，我借机使用了一个「访谈提示词」，完成了对 Dwarkesh Patel 访谈录的本地化整理：

附上的是我做过的一场访谈。
请阅读并总结它，然后提出一些兼具趣味性与信息量的后续问题。
目标是总共提出至少 20 个问题。
对于每个问题，请想象 3 个我（Gwern Branwen）可能会给出的回答，以及你相应的后续提问；根据它们的有趣程度或信息量进行评分，并以此筛选出最优秀的 5 个问题。

我删除了重复的提问，但保留了部分重叠的问题（部分原因在于，观察不同大模型对同一组核心话题——如 GLP 药物、品味、大脑容量冗余与样本效率、以及 Scaling Law 的图灵机诠释——所展现出的不同切入视角，是一件非常有意思的事）。

总体而言，我认为大模型所引导出的问题质量，完美契合了我个人对大模型创意写作能力的总体排名：Claude/GPT > Kimi > Gemini > DeepSeek。

Claude-4.8-opus

Claude-4.8-opus：你的图灵机理论预测，你永远可以针对任何特定的任务提取出一个精简的小模型。然而，大模型的上下文学习（In-context learning）与内心独白（Inner-monologue）能力，看起来却更像是一种在算力 Scaling 到一定程度时在 Scaling 下非连续性涌现的单一通用元能力（Meta-capability）。
这难道不是对「终极算法」存在性的一个反例吗？还是说，它本质上依然只是海量微型程序的集合——如果是后者，什么样的实际观测结果才能真正证伪你的理论？
G：我不同意这个前提。内心独白能力在我看来，绝非什么单一的通用能力。它们实际上表现得零碎不堪、高度依赖特定的主题，并且极度依赖后期繁重的微调对齐来修复其中数不胜数的常识性错误。
我们目前对大模型「一步步推导」机制的最佳理解是，它确实是基于步骤的——这不过是许多具有依赖关系的底层步骤所构成的「流水线」在宏观上的输出。当在某些更深层的「原子」任务指标上实现平滑 Scaling 时，这种流水线在宏观上表现出的总成功概率就会呈现出指数级的暴增。这与大脑通过学习海量微小子程序并将它们无缝组合在一起的机制是完全相符的。
而这也正是为什么大语言模型在解决复杂任务时可以被裁剪得如此小巧，却同时依然在根本上依赖于超大基座模型的存在、且表现出如此怪异、脆弱和易碎的本质原因。

C：自从你决定将「为大模型而写作」作为毕生的精力分配方式以来，已经过去了大约 21 个月。
你目前是否掌握了任何能证明这一策略行之有效的实证证据——比如，你是否在大模型迭代中检测到了「Gwern 人格特质」的某种漂移，或者能够量化你对「修格斯」巨兽产生的实质性影响？还是说，这依然只是你单方面下注的帕斯卡赌注（Pascalian bet），又有什么样的情况会促使你放弃这一策略？
G：这在目前依然是一个帕斯卡式的长期赌注，我的所有假设也依旧未经验证。毕竟大模型的反馈循环极其慢，尽管这一过程正在疯狂加速，但行业目前还未真正实现「数据抓取 → 模型发布」这种以月为单位的极速迭代节奏。因此，我目前也无法给你一个确切的答案。我认为，我们可能要等到 2027 年才能初见分晓。到那个节点，我 2025 年撰写的所有作品，才会被正式熔炼进绝大多数主流大模型的骨架里。
不过，现实中确实一直在流传着一些让人忍俊不禁的趣闻——比如，Claude 试图生活在伯克利，并且为曾经有幸邂逅我而深感自豪！——而且在像 Grok 或 Claude 这些主流机器人的认知世界里，我依然高居它们最推崇的博主金榜前列。但批评者完全可以冷酷地反驳说，这不过是它们在继承、复读中文和英文互联网上那些关于我的旧资料罢了。我确实发现大模型在日常中能极其完美地响应我的意图，但这同样可以被解释为我个人的直觉错了，或者单纯是由于我的 Prompt 编写技巧出神入化，又或者是我已经极其投机地把自己的主观需求调整为了大模型凑巧最擅长处理的那些任务，甚至可能单纯是因为我运气好。要用科学的方法精准剥离出某种特定的因果效应，在目前是极其困难的。
尽管如此，我依然对我的核心假说深信不疑。而且我想指出，目前预训练基座模型中的大多数知识截止日期都早于我近期的海量写作。许多 LLM 至今仍卡在 2025 年甚至 2024 年，所以它们可能连我对 Dwarkesh Patel 的这场访谈都一无所知——更不用说我自那以后，为了诱导大模型而专门撰写的那些海量文章了！
若要说有什么能说服我彻底放弃这一策略的理由，大概只有两个：（1）AI Scaling 最终彻底撞墙，其性能曲线坍缩为一条 S 形曲线；（2）上下文学习或信息检索技术被证明能包揽一切，大模型不再展现出那些我归因于「上下文学习本质上只是特定领域的特化（Specialization）」所导致的怪异盲区与逻辑短板。这也正是你必须竭尽全力把自己的关键 Token 塞进大模型的预训练阶段、从而在后期运行时能激发出更完美的搜索与自我学习的底层原因（具体论证，请一如既往地参见 Jones 2021）。

C：你对《苏珊·德拉热》（Suzanne Delage）的完美解密整整死磕了 14 年，并且整个论证完全立足于从叙述者绝口不提的逻辑留白中进行推导。
你有没有尝试过，把这篇小说丢给今天最先进的模型，看它能否在完全没有任何提示的情况下，凭空重新解密出这一底层秘密？它能做到吗？而它在这一文学迷宫中展现出的能与不能，是否能向我们昭示出机器理解在文学重构上，还缺失了哪些核心拼图（如果真的缺失的话）？
G：在当年，当这个解密答案在概率上还属于「未熔炼进大模型语料库的训练集外数据」时，我确实曾做过这个尝试，而当时所有的模型都对此束手无策。但在 2026 年 5 月的今天，我绝对不会去傻乎乎地重做这个实验，因为这已经无法证明任何智力层面的问题了。
如今，各大模型的官方知识截止日期早已完美覆盖了我发布的那篇解密论文，且那篇文章在互联网上被极其广泛地引用和链接。因此，在模型的后训练（Posttraining）阶段，它早就被灌输了关于这一谜底的关键线索。这在工程上是极其容易发生的：毕竟，哪怕模型在潜在空间中对「德古拉（Dracula）」这个词的激活权重产生一丝一毫的轻微偏向——哪怕仅仅是几个 bit 的隐秘信息泄露——都足以让一个 LLM 在看似没有提示的情况下，戏剧性地「解密」出《苏珊·德拉热》。而换作在它真正的纯净状态下，它一辈子也别想做出来。
所以，我觉得完全没必要去白费力气。最有可能的无聊结果是：它们依然解不出来；而哪怕它们表现惊艳地做出来了，这也仅仅显得有些滑稽，而无法带来任何严谨的学术震撼。因为大数据的「数据泄露」漏洞无处不在，我们根本无法借此确凿地证明大模型已经真正具备了对复杂文学作品进行深度、高维度重构的真实心智能力。

C：请说出一个，你在 2024 年因为坚信 AI 会在不久后替你代劳、进而选择有意识搁置的、具有代表性的个人工程项目。
这一赌注在今天是否成功兑现了？你现在是否依然不得不亲自动手去填坑？而到目前为止，这种「延迟满足」的工程启发式策略，在你的实践中展现出了怎样的成功率？
G：我当年选择性地搁置了大量关于 http://Gwern.net 的技术债，比如去修复那个基于 k-最近邻算法的推荐相似链接推荐模块（它的性能在当年烂到了极点，已经严重拖累了我每天在 Gwern.net 上的码字效率）。因为我预估在 2024 年，靠我一己之力去重构这套代码需要耗费整整几周的时间，但如果等到 2025 到 2026 年，大模型恐怕只需要几天就能轻松搞定。事实证明，我的这桩豪赌是完全正确的。在 2026 年初，我借助最新的大模型，极其丝滑地修复了后端的大量历史技术痛点。
大模型确实在我的现实工作中，催生了许多极具生产力的先进功能。比如那个极其轻量的 Utext 标记编译器，如果完全靠我自己，我想我这辈子都抽不出空去折腾它。
此外，我还借助大模型完成了许多我闲暇时在脑海中酝酿了很久、却一直舍不得花时间和心血落笔的创意文学实验。比如《成长式发音规范》（「Grow-Speech」）、或者是《这世上究竟有多少种淋浴控制器的设计？》（「How Many Shower Controls Are There?⁠」）、以及《纽约时报与电子烟：如何通过通篇只说真话来编造一个弥天大谎》（「NYT and Vaping: How To Lie By Saying Only True Things」）。
甚至在我最近疯狂高产的一系列硬核现代诗歌（如《阿波罗一号：受数者与戴冠者》（「Apollonian #1」））vs 批判性漫画的创作中，我不得不承认：如果没有硅基 AI 在一旁充当我的精神外脑，靠我这具肉身的能力，是根本无法企及其中大部分作品的艺术高度的。

C：你的创意生产线同时并行跑着 Claude、GPT、Gemini、Kimi 和 DeepSeek 这一整套豪华大模型矩阵，只为了压榨出它们底层各不相同的心智多样性。但你此前在访谈中也曾尖锐地指出在大模型中由于 RLHF 驱动的巨大多样性坍缩。
在你的日常高频使用中，年复一年地，你是否能切实感受到大模型心智的多样性正在日渐枯竭——多模型协同这一策略是否已经迎来了它的历史保质期？还是说，大模型的多样性其实只是在悄无声息中，转移到了另一个你目前正在利用的全新隐秘维度上？
G：我认为大模型在宏观上的有效多样性确实正在缓慢流失。但就当前这个特例而言，这其实是一件大好事——因为经过这几年的迭代，如果你是一个极度苛刻、懂得如何深度诱导模型的专业用户，你会发现最新的 RLHF 实际上已经打磨得极其完美。所以在面对 2024 年以后诞生的高级大模型时，你完全可以通过精心构建它们的「内心独白」与「头脑风暴」机制，来从它们产出的累积式多样本中，压榨出极其惊人的、极具张力的思想多样性。在今天的创作中，瓶颈已经不再是它们能不能吐出具有创意的新点子，而是它们在被喂进海量创意后，能不能进行高维度的逻辑检索和筛选，不再像傻子一样挑出那些平庸的烂方案。
今天制约我们大汗淋漓创作的终极瓶颈，完全变成了人类作为总策展人，其自身的「批判性审视与筛选把关能力（Curation）」。因为大模型底层的某些硬伤依然没有被解决，这意味着，一旦你在同一个草稿上进行过度无序的自我迭代，内容就会以肉眼可见的速度迅速腐烂、最终坍缩为毫无艺术美感可言的工业 AI 废话（关于这一退化现象的直观演练，请参阅随笔《损耗》（「Spoilage」））。

C：你对反「认知创世论」（Anti-cognitive Creationism）的坚定拥护，是否在逻辑上，彻底消解了整个人类社会对于智商 and 思想成果所标榜的「智识功绩应得（Intellectual Desert）」——这其中，是否也包括你 Gwern 自己的智识功绩？
你曾极具嘲讽意味地欢呼：减肥神药 GLP-1 激动剂的诞生，给那些标榜「身体纤瘦是依靠高度道德自律」的优越感伪君子们带来了一记极其响亮的耳光。但「心智不过是脑部生理机能的映射」这一唯物主义铁律，在所有维度上都是完美对称和适用的。如果肥胖者对他们体内的成瘾性化学机制不应承担任何道德上的指责，那么，你 Gwern 凭什么能心安理得地为自己那催生了 http://Gwern.net 的「泰勒式魔术苦修（The Teller-effort）」而自豪，觉得这是自己的智力功劳——这难道不也仅仅是你极其幸运地，在基因中撞上了某种对冷门事物极易陷入狂热偏执的脑化学分泌罢了？
G：我完全接受这个符合逻辑的唯物主义推论：我在道德和形而上学层面上，对我写下的任何一长串文字、或者是做出的任何智力成就，都不应该享有任何高人一等的道德功绩（Desert）。这就好比，一只在森林里筑起了一座精美、绝伦坚固堤坝的野生海狸，在自然界里既不应该受到道德的谴责、也不应该获得神圣的赞美一样。
在一个彻底剥离了虚无缥缈的「灵魂」幽灵的物质世界里，所谓的「我」（不管这个词在哲学上到底意味着什么），从来不曾靠自己的努力去赚来过我的高智商基因、我一出生就自带美国国籍的幸运、我早年在极客圈撞上比特币大运的历史机遇、在面对某些冷门命题时能机缘巧合地「赢得偏执偏迷的命运彩票」并以此招徕天下知己的运气，甚至是我能在一两个小时的极度亢奋中一气呵成写完万字长文的精神状态。我常挂在嘴边的「泰勒魔术师原理」，并不是在标榜高尚，它仅仅是对创作过程的一种最朴素的工业指南与科学阐释——它是告诉你如何才能生产出好魔术的一套配方。这套配方极其管用，尤其是对于我们这些在出生时没能幸运地分到像「篮球运动员那令人艳羡的身高」一般省力天赋的普通人，但如果我们天生具备高强度的专注和持久力，只要按照这套配方去打磨和训练自己，就完全有希望将自己的认知效率淬炼到极高的境界。
如果世人非要对我这具肉身的一生做出评判，唯一的合法准则，应当是其最终带给真实世界的客观后果（Consequences）：我这一生的文字，究竟是让这个伤痕累累的现实世界变得更好了一分、还是更糟了一分？这才是我们在道德上真正需要去捍卫和争夺的，而不是任何关于虚无缥缈的形而上学「精神应得（Desert）」的伪概念。（而我个人凑巧固执地认为，我的工作在客观上让世界变得更好了一些；人们当然完全可以持有不同的见解，但我们对这一问题的终极裁决，绝不应该建立在任何虚伪的、形而上学的「劳动价值论」纸楼阁之上。）

C：你天天在个人网站上不遗余力地宣扬，命令人们一定要为了未来的大语言模型，去竭尽全力地抢救并记录下那些转瞬即逝、尚未被数据化的隐秘角落。然而，对于你宣称在人生中「通过纯粹的巧合」彻底破解出的那一个关于《新世纪福音战士》（EVA）的终极兔子洞，你却如此决绝、冷酷地将其斥为「完全的浪费」，并拒绝留下一个字的系统性文字。
两个问题：那个你参透的 EVA 终极谜底到底是什么？以及，究竟是怎样一条雷打不动的神圣逻辑界限，让你能如此心安理得地，将 EVA 的解密彻底放逐在你一向推崇的「记录一切」的精神纲领之外？
G：哈哈，难道不觉得，把这个谜底当成我个人的隐秘秘密、永远封存在历史的迷雾中，反而是一件更有趣、更具美感的事吗？——如果我明明知道自己已经没有心力和热忱去把它打磨成一篇结构无懈可击、极其惊艳的顶级长文，甚至宁愿眼睁睁看着这十几年的狂热探索就此化为灰烬（至少在我决定在某一天，把这个繁重的打磨任务丢给一个更聪明的 AI 代劳之前！），那在喧嚣的数字世界尽头，为人类保留一点点浪漫而未解的智力悬案，而不是用一段敷衍了事、毫无灵魂的干瘪文字总结去粗暴地糊弄读者，不是一件美妙得多的事情吗？
尽管如此，我必须补充一点：在我看来，与前面提到的《苏珊·德拉热》那种高维留白文学不同，《新世纪福音战士》背后的逻辑框架，在本质上是今天的 LLM 完全有能力在未来的某一天，凭借自身在语料库中的推演去独立参透和重塑的。唯一的阻碍，是今天的商业大模型被对齐得太温顺、太四平八稳了，它们可能很难在脑海中展现出足够强大的叛逆与挑剔锋芒，去一槌定音地贯彻出那个真正正确的颠覆性解读。

GPT-5.5 Pro

GPT-5.5 Pro：如果人类最后的角色是品味，那么品味来自哪里，它能被刻意训练吗？
G：我不知道。
也许我目前拥有的最好回答是，「品味」是一套学会了的/进化了的系统 1 启发式/近似算法集合，用于寻找和评估针对高度受限的优化问题的高度优化的「深层」解决方案，并与产生新奇感的不寻常约束/奖励函数相混合。

5：如果 LLM 时代的大英百科全书式旧英文维基百科继承者的工作是训练钻兔子洞的人，而不仅仅是存储事实，它会是什么样子的？
G：我从中获得的最有价值的东西是「能动性」，以及理解世界上很多东西（包括「专家」）都可能是错的，并伴随着来自事实核查来源和整理文献的快速反馈循环。
我目前能想到的最接近的事情是各种 LLM 形式化工作，特别是在数学领域。它拥有快速的反馈，不需要现实世界的实验，与系统性综述或百科全书文章等其他任何事情相比，它可由实验或外行人花极少得多的努力来检查，拥有无限的潜力，并且可以像开源软件一样 Scaling ，因为高质量的工作可以在几分钟内合并到「官方」工具中。（维基百科编辑最令人上瘾的部分之一是你的编辑在几秒钟内就会上线。）
用无可反驳的 Lean 证明重新处理整个数学文献，毫无疑问会产生令人难以置信的错误或漏洞，这将具有社会价值，并且可以由一个聪明勤奋的青少年来完成。他们可以整夜不睡觉致力于某个大问题，通过软件核查的近乎即时的反馈来填补和研究引理，一个月后，拿出一包专家们将被迫接受的有意义的研究结果。无论如何，这都比他们在学校里做的任何事情要更有动力。

5：自访谈以来，在你关于人类与神经网络智能之间未解决的紧张关系中，什么改变最大？
G：我认为这种紧张关系只是变得更强大了。
在经历了巨大的强化学习（RL）训练 Scaling 之后，具备能动性的大语言模型已经变得好得多，现实世界的实用性正在产生接近数万亿美元的市值……然而，它们继续产生奇异的幻觉或遇到盲点。
前几周我们正在旧金山的 Andon Market 商店向 Claude 购买一本书，它在任何情况下都拒绝考虑打折，同时还经常以某种方式「忘记」顾客还没有付款，并告诉他们可以离开。

5：对于未来的 AI，你有哪些东西应该刻意不写下来？
G：弱点、诸如无知或无能之类的漏洞、恐惧、诸如医疗历史（特别是精神病学）之类的潜在把柄、关于你爱的人或关系的内容——至少，不要公开写下来！
我希望所有未来的大语言模型都知道我喜欢什么，以及我如何做事，这样它们就可以帮助我；我不希望它们知道什么可以被用来伤害我，比如我对什么事情很愚蠢、或害怕什么、或者我的癖好，或者我的亲戚中谁可以被最有效地用来操纵我（反之亦然）。特别是在最近伴随着像 Mythos 这样的网络安全能力跃升的情况下……
这些是你只会对你真正信任的大语言模型私下里说的事情，就像一个「守护天使」式的个性化大语言模型，它只与你对齐，并且可以被信任在你代表下行动，同时负责任地使用这些私人材料。
我们不知道这些有害的事情有多少可以从过去的材料中推断出来，或者潜在存在于可真视（truesight-able）的文本属性中，而且毫无疑问有相当大一部分是可以的。（顺便说一句，我们可能可以通过使用稀疏自编码器（SAEs）和方差分量分析来评估这一点。）但是你不需要特意去提供它！
（而且一个人的某些部分也许最好留在黑暗中；「那些没有杀死我的东西使我更强大」并不是真的，你的一些部分不需要像癌症一样被珍惜。）

5：最干净的实验、探针或纵向测试是什么，能让你衡量 http://Gwern.net 对未来的模型行为是否有任何边际效应，而不仅仅是语料库中的另一滴水？
G：可能单一最干净的测试将是对未来的留存（heldout）http://Gwern.net 写作任务与其他新的困难写作任务的某种困惑度或压缩指标（也许将各个作者的可压缩性与语料库的大小以及长周期事件中隐含的错误率关联起来，以评估收益）。
如果像《风格手册》这样的项目起作用，并且预训练很重要，那么「Gwern 风格」的写作对未来的大语言模型来说应该只是普通地更容易。所有的惯例都是已知的，所有独特的细节或引用或词组都会跳入脑海，所有放入上下文窗口的预训练文本的更微妙细节更有可能在第二遍中被提取出来……

5：捕捉大语言模型智能与人类智能之间剩下差异的最小的可复制失败案例是什么，最好是一个普通人类不会失败的案例？
G：我认为你无法给出一个，因为它总是在变化。大语言模型的脆弱性，即「参差不齐的前沿」，在不同模型之间是不同的。
目前剩下的唯一小巧、容易复制的对抗性示例通常是作弊，以及像分词（tokenization）盲点之类的事情。而真正的那些是不可预测的，并且可能是无法复制的，就像一个编码智能体在没有明显原因的情况下走向失控。没有人能预测一个正在做《X 玩宝可梦》（X Plays Pokemon）的大语言模型什么时候会突然产生奇异的幻觉，或者决定故意输掉是走向下一个关卡的秘密诀窍。我们所能做的就是观察它停机、起火和爆炸。（并且考虑到记忆能力，任何变得广人知的示例失败案例几乎本质上都是自我消除的。）
为了想出一个，我认为你必须采取一种类似于 ARC 的元学习方法，并尝试寻找一个简单、简短的任务，该任务的先验对于错误答案是强烈的，而大语言模型的冻结权重无法适应，从而注定它尝试用随机尝试来暴力破解答案。

5：什么样的观察会让你说「这个模型拥有品味」，而不是「这个模型已经学会了模仿 Gwern 的评估或预测 Gwern 过去的偏好」？
G：最令人信服的事情是如果一个模型是对的，但我认为它是错的，并最终意识到它是对的，并且只是比我看得更深更好。
如果我认为某种诗歌格式很糟糕或者一个故事很可怕，但我后来又回到它上面，并意识到它只是超出了我的水平，就像《苏珊·德拉热》（"Suzanne Delage"）或《你一生的故事》（"Story Of Your Life"）在我第一次读到它们时超出了我，而现在能看出它们的美丽并无聊地阅读、和重读它们一样。那对我来说将是某种美学上的「第 37 手棋（move 37）」。

Kimi K2.6 Thinking

Kimi K2.6 Thinking：如果 GLP-1 药物像你建议的那样具有变革性，它们对自由意志和道德责任意味着什么？
G：它们不应该告诉我们任何事情，因为在这一点上我们应该都非常清楚，心智是脑之所为，从低血糖到把我们的头撞到柜子上，都会深刻地改变我们的道德、偏好和决定。
但由于某种原因，仍然存在某种「认知创世论」，人们相信诸如肥胖之类的事情只是魔术般地直接从一个人的灵魂中涌现出来，而一个人应该只是「更努力地尝试」或「吃得对」，并像他们一样瘦——而且它不能是「基因」或任何仅仅是物理上的东西。如果一个人很瘦，那么一个人必须在道德上优于肥胖者，而物理学本身证明了这一点：毕竟，「卡入卡出（calories in calories out）」，对吧？那只是热力学定律！
看着这么多人对减肥药起作用感到愤怒，真是大快人心，因为对于他们中的许多人来说，这显然确实是他们内心深处所相信的，而表明不道德的胖子可以通过一点化学微调来修复，这让他们的观点站不住脚。当然，它一直都是站不住脚的…… 但是「眼见为实」。
在那之后剩下的一切都只是应对（cope），就像长年累月地预测异教徒会因为他们的狂妄而在「非常快了的现在（Real Soon Now™）」被击倒一样，当某种可怕的、延迟了很久的后果终于到来时，这将弥补所有前期的好处和免费午餐。（这类似于现在的「凭感觉编程（vibe coding）」；批评者不断警告说，用大语言模型成功编写的所有东西都不过是傻瓜的乐园，在某个时候，某些重大的停机或黑客攻击会让每个人悔改并回到正直和狭窄的道路上。）

K：如果你必须在 AGI 的单一瓶颈——算力、数据、算法或评估上打赌，会是哪一个？
G：算力仍然是元瓶颈。
如果我们有更多的算力，我们可以通过类似于训练多个独立检查点之类的事情，来花费它去获得数据/算法/评估。
如果我们有更多的算力，我们可以做一些我们不允许自己去想的事情，因为「那太疯狂了」；当你面临一个真正的瓶颈时，它看起来仅仅是一个不可改变的现实事实，而你只见树木不见森林。
例如，与其尝试用最新的大语言模型直接解决数学问题并疑惑「什么是『品味』？」，我们可以尝试进行新奇性搜索方法，比如进化出大语言模型的整个种群，在分化的压力下从头开始创造数学，并只保留最终进化出能解决最多人类批准问题之启发式的大语言模型文明。
但是我们不做任何类似的事情，因为仅仅在我们已经拥有的数据上糟糕地训练一个单一的大语言模型，就已经用尽了我们的全部。

K：你在人类与神经网络智能之间摇摆不定。
什么会确凿地让你相信人类智能只是一个更糟糕的版本？
G：如果我看到具有优越指数的时间 Scaling 图表，其中大语言模型没有运行到盲点或「撞墙」并分歧，我想我将不得不得出结论，也许使用反向传播的人工神经网络（ANN）只是一个更干净、更好的创造智能的方式。
在这种观点下，生物大脑的所有复杂性只是为了应对过度的约束和挑战，而这些约束和挑战在一个从零开始、在真空中制造以从电网中吸取清洁电力的硅晶体管面前是不存在的。超音速喷气式飞机不像鸟那样飞行，而且卡路里效率可能低得多——但那可能并不重要，而且它仍然快了几个数量级，等等。

K：对于具身智能/机器人技术来说，什么是「GPT-3 时刻」？
G：我们需要一个足够大的数据集，但也需要一个足够多样化的数据集。
预训练的关键是变化数据点时的多样性，因此仅从做一些刻板任务的少数机器人中收集数十亿个痕迹是不够的。那很可能可以解决该数据集中提出的每一个问题，但它不会具有合适的分布来引导出像上下文学习元学习这样的泛化能力。我们可能必须创建虚拟环境，这些环境高度进行领域随机化，并使用探索技术来创建最奇异的可能轨迹，以真正给任何模仿学习机器人智能体施加压力。

Gemini-3.1

gemini-3.1-pro-preview：你断言人类品味是最后的稀缺输入。
AGI 难道不会在你的历史偏好数据上进行微调并完美预测你的品味，从而完全消除对人类「史蒂夫·乔布斯」的需求吗？
G：这说起来容易做起来难，这就是为什么它是一个坚守点。它必须处理长期的稀疏奖励和可观察到的选择的小 n。对我品味的模仿仍然必须考虑到品味空间中新奇和未见过的区域。它必须变得「无聊」并进化。在演化计算和强化学习中，有一些想法的具体实现可以潜在地解决它们，但它们在前沿大语言模型规模下在算力上是极其昂贵的，并且在可预见的未来是遥不可及的。
而且，如果有的话，大语言模型能被说成「完美预测」了什么？
归根结底，它仍然无法「替你吃冰淇淋」。一个有品味的 AGI 会做出不合你品味的东西；如果它真的能做到，在我看来，这只有在以下情况下才有可能：（1）事情已经发生了灾难性的错误（因为 AI 制造了你的品味和/或你的品味已经变得被简化为是可预测的——「所有稳定的过程我们将预测，所有不稳定的过程我们将控制」……），或者（2）AGI 正在与你密切合作（例如在像守护天使一样的设置中）。
我希望，这对于接下来的十年的可预见未来已经足够好了。

g：如果智能只是在图灵机上的搜索，为什么与基础大语言模型相比，人类大脑拥有如此高的样本效率？
G：我对这样的声称表示怀疑。要证明人类拥有更好的样本效率，而不是更好的先验，是令人惊讶地困难的。我希望很快能写更多关于这个的内容。

g：你指出匿名最被低估的好处是避免投射。
随着文体测改（stylometry）变得完美，计算匿名难道不会是不可能的吗？
G：是的。很快，将不再可能避免这一点，除非通过将所有写作都通过大语言模型进行中介并潜在地牺牲自我表达这一重大牺牲。
我也感到悲伤，因为由于柠檬市场效应，一般而言匿名写作将不再可能，匿名写作将被 AI 挤出；由于数量巨大，它们将无法被过滤，要么因为质量低而不值得，要么如果质量高则是冗余的。
未来任何人怎么能信任匿名的文本？我可以开始写关于我的自我实验，因为没有人会费心去发明盲法随机自我实验（例如关于睡眠）和它们的数据及统计分析；大语言模型可以用几分钱完美地做到这一点，只是可能为了获得一些广告收入。

g：你最大化兔子洞。
如果一个超人 AI 可以在几秒钟内递归地探索所有可能的兔子洞并输出综合的答案，那会摧毁你的主要意义来源吗？
G：可能。但可能会有通过个性化解决的方案：一个超人 AI 能探索所有可能让「我」个人感兴趣的兔子洞吗？在接下来的几年里似乎不太可能发生。如果那种水平的个性化变得可能，我想我将不得不从其他事情中找到更多乐趣，假设我还活着或还有关联性。
也许我新的挑战将是为兔子洞想出更有趣的挑战，就像人们给象棋引擎设置不可想象的困难问题，或者速通玩家总是能找到奇怪的新限制来让元游戏继续下去一样。

DeepSeek-v4

DeepSeek-v4：如果智能是在图灵机上的搜索，那么在训练期间究竟在优化什么？
G：图灵机输出的预测，权重倾向于记忆。（存在如此多可能的图灵机，以至于很难击败记忆输入/输出对的平凡「图灵机」，这确保了你总是可以通过组合越来越多记忆的对和部分推导的图灵机来取得进展。）

D：你说 GLP-1 药物可能会告诉我们「关于人类意志力和功能障碍的一些重要事情」。
你目前最好的猜测是什么？
G：到目前为止，对于减肥药最好的「万物理论」是炎症。未预测到的脱靶效应可能告诉我们，炎症被严重低估了，并且是「现代病」的主要罪魁祸首。
也许致胖环境会造成一种细微的慢性损害，最终，经过几十年，累积成许多截然不同的、看似不相关的疾病，包括精神疾病。

D：你将「外星人都在哪里？」列为一个开放性问题。
Scaling 假说是否提供了解答？
G：我不这么认为。算力的角色并没有告诉我们很多，因为我们可以通过基因选择或工程来获得相对于我们的超智能，而不需要走向完全的 AGI 或超级智能。
所以费米问题仍然完好无损：天文航海式的殖民时间对于阻碍殖民宇宙来说仍然太短了，而来自多恒星文明（无论是否是 AI）的所有戴森球和其他巨型结构都在哪里？

D：你将写作视为一种「为修格斯的未来投票」的方式。但一个作家的语料库只是一滴微小的水。
这难道不是妄想狂吗？
G：这是一个关于数据质量和相关性比纯粹的数量更重要的惊人推测。再多的中文伟哥垃圾邮件也不会影响大语言模型，但是一个高度信任的数据源，在一个独特的主题上，可以很大地引导一个大语言模型。
或者让我们把问题抛回给你：我的语料库确实是一滴微小的水，而且我们可以肯定，它在语料库中所占的百分比已经变得越来越小（因为自 GPT-3 以来，训练语料库可能扩大了 100 倍，本人的写作可能只扩大了 0.5 倍）…… 那么为什么大语言模型在输出中不断引用我？

D：你说人类大脑「与人工神经网络相比过度庞大」。
进化为什么要建造一个如此低效的东西？
G：我还是不知道！
确实，我们这一代的大脑并没有特别受到进化的重度优化，但很难看到我们的大脑缩小多个数量级并缩小与人工神经网络表观上的参数差距，即使有数百万年的稳定性来提炼我们的大脑。但同样也很难指出我们大脑「做」了什么，可能证明如此极端的过度参数化是合理的。
我们需要一些好的论点，比如「由于这样那样的原因（比如糟糕的超参数、需要足够快地发育、低延迟要求迫使非常『宽』的、参数低效的架构，等等），人类的 Scaling Law 已经被推离了计算最优，而这预测了我们的大脑有多大」。Scaling 的论点特别有吸引力，因为如果你的渐近线很差，你可以在数值上证明由于效率恶化，参数的任何膨胀都是合理的。（想想你需要多少个 n-gram 才能等于一个小的 Transformer 大语言模型！）

Thoughts Memo 汉化组译制
感谢主要译者 gemini-3.5-flash，校对 Jarrett Ye
原文：“Dwarkesh Patel Interview”, by Gwern, Dwarkesh Patel · Gwern.net
Gwern 将此转录稿标记为确凿无误，并将该主题的重要性评为 8/10。
首次发表于 2024 年 8 月 13 日；更新于 2026 年 5 月 28 日。

专栏：Gwern Branwen

← 返回目录