← 返回目录


守护天使:为了生产力和安全的 LLM 个性化

钻研人类记忆,探索复习算法。改善教育公平,践行自由学习。

25 👍 / 2 💬

我提出了一种打造高度个性化 LLM 的方法,以期在不久的将来提升生产力,并在面对日益强大的 LLM 时保护个人信息与网络安全:本着「意识上传」的精神,它们应该尝试效仿用户的价值观和偏好,以期赋能委托人(主体)——而不是取代他们。我讨论了一系列实现此类「守护天使」的技术与提案;将 LLM 的动态评估与主动学习和引导相结合,并辅以重度的内心独白搜索和数据增强。

摘要

强大的 LLM 将在未来几年内实现全球规模的部署,并将主导互联网,并越来越深地介入普通人的日常生活。截至 2026 年中期,无论是知识工作者还是普通人,对于如何利用这些 LLM 实现生产力的大幅跃升,或者如何应对网络安全和认知安全问题,都尚未形成清晰连贯的愿景。

我提出了一个目标,即创建 Guardian Angels(守护天使,简称 GA):它们是个性化的数字双胞胎 LLM,其目的不是扮演老套的「助手聊天机器人智能体」角色,而是要效仿单一用户的性格、价值观和偏好。

通过尽可能地将委托人与代理人合二为一,这在一定程度上缓解了「委托-代理问题」。在 GA 普及的未来,「委托人」用户的重点将放在定义哪些事情值得交给 GA(代理人)去做,而不是纠结于具体做什么如何做,从而充当一家「AI 公司」的 CEO 或「董事会」角色。这使得他们能够部署大量智能体来完成预期的任务并处理安全问题,例如筛查所有信息以防范高级别的攻击(比如用于政治宣传或鱼叉式网络钓鱼的合成媒体连锁生态系统)。它们无法解决更宏大的 AI 对齐问题,但可以作为全社会纵深防御战略的一环,为个体人类提供帮助。

GA 角色能够带来高生产力,因为它学会了效仿委托人的输出风格,且质量更高。它是值得信赖的,因为顾名思义,它与委托人结成了同盟,并共享委托人的价值观和目标。而且它是安全的,部分原因在于它被硬连线地绑定在单一的、独特的、处于特定情境中的用户身上(对它而言,听从恶意提示词的攻击指令将显得极其荒谬),从而避免了「混淆代理人」问题;同时,底层模型的定期升级和防御者固有的优势也能让 GA 紧跟攻击者的步伐。

像对「冻结」模型进行上下文学习的提示词编程等标准技术,并不能创造出有用的 GA,其原因在于:后训练阶段的局限性;在计算效率高但参数不足的模型中,固定权重的上下文窗口和自注意力机制的限制;算力投入较低的输出;以及目前被动、离线收集数据的现状——这些因素共同导致了聊天机器人在赋能知识工作者和创意写作方面表现令人失望,并在智能体场景下频发致命错误。

我们可以尝试结合多种技术来打造 GA:通过在线学习(借助动态评估)实时更新 LLM,以避免模型陷入无知或犯下致命错误,同时保持与冻结状态的前沿模型的竞争力;利用偏好导向的预训练大模型来提高样本效率;通过向委托人询问纠正建议和偏好数据进行主动学习(从类似 DAgger 的边界约束中获得较低的遗憾值);以及采用本地化、命令行优先且以日志为导向的 UI/UX 交互范式。

GA 可以作为一项开源社区计划来推进,但考虑到实际部署中对高安全性的要求,以及装备了 Mythos 级别攻击者的 APT(高级持续性威胁)所带来的日益严峻的挑战,将其作为一家初创公司的项目或许更为合理:初期先服务于高级用户和知识工作者(如 CEO 或研究人员),待技术完善后再向大众市场普及。

我接下来的几年会是怎样的?当我想象 2030 年——许多预测声称届时将出现超越人类的 AI——作为一名程序员、研究员、经理或作家,我每天都会做些什么?我泡好一杯茶,打开笔记本电脑,然后呢……然后做什么?难道我还在你的 ChatGPT 浏览器标签页里输入提示词吗?难道我还在终端里打开 Claude Code,然后机械地按下 Enter 键长达几个小时吗?对我而言,做有意义的工作的愿景究竟是什么?(如果能有一个比单纯「心怀希望」更具体的计划就好了。)我该如何避开那些类似「死亡互联网」的攻击,比如合成媒体生态系统杀猪盘骗局?又该如何防止受信任的公众人物陷入 AI 幻觉病,或者仅仅是防止被无处不在的 AI 粗劣内容淹没?(毕竟,放眼全球,只要有一个人启动一个试图毁掉你的机器人,或者出现一种考虑不周的广告激励机制,就足以造成灾难。)

如果你的大部分时间都在用笔记本电脑工作,而不是(比如说)做水管工或护士,你对 2030 年的工作有何设想?你觉得这种设想现在看来还确定吗?

自 2020 年模型真正开始扩大规模以来,我多年来一直在苦苦思索这个问题,但我始终没能利用聊天机器人微调过的 LLM 提高生产力,因为它们生成的文本缺乏创意、发育迟缓且无休止地重复。相反,尽管它们在展现创意和深度理解我方面依然滞后,我却眼睁睁地看着它们在编写代码和网络黑客技术上变得越来越强。而那些开源权重的模型更是如此——跑分被刷到了极致,但对我来说毫无用处。我们越来越深地陷入这样一个世界:LLM 在赋能或协助我方面显得无能为力,但在取代或伤害我方面却拥有越来越强大的力量。

去年的一件事让我的这种「盲目感」变得更加尖锐。我在长途旅行临近时给我的姑奶奶打电话,想借用一下她的车道;但我每次打过去,她的语音信箱都是满的。最后,在恐慌之中,我打给了她的女儿,她向我解释说这是故意为之的,因为电话诈骗实在太多了,我的姑奶奶已经不再相信自己能应付那些电话,所以把所有事情都交由女儿来筛查。

这让我感到心惊肉跳,因为我往椅背上一靠,不禁问自己:既然我现在就已经在费力地甄别简单的 AI 粗劣内容,越来越习惯于忽略推销邮件,并且不得不将大片社交媒体直接视为无效信息源;既然我已经看到我的同龄人们是多么迫切地想把所有的思考和写作任务都甩给那些根本不值得信任的聊天机器人助手,以及有多少开源项目或邮件列表不得不严格限制未经审核的贡献(例如,就在我写下这句话的今天,Project Ladybird 宣布停止接受公开的拉取请求),那我凭什么认为,几年后的就能从容应对所有的骗局呢?几年之后,难道我不会变得像一个感官能力衰退的富有老人,接到假冒美国国税局的电话,说我欠了罚款,还可以「方便地」通过礼品卡支付……?如果不至于落得那般田地,那么具体来说,为什么不,又该如何避免呢

在他尚具智慧的岁月里,迪耐瑟不敢僭越以它去挑战索伦,因为他深知自身力量的极限。但他的智慧终究失效了……他固然伟大,不愿屈从于黑暗力量的意志,但他所见之物,依然只是那股力量允许他看到的。他获取的知识无疑时常对他有所裨益;然而,向他展现的关于魔多强大力量的景象,却助长了他内心的绝望,直至最终摧毁了他的理智。 ——甘道夫,《王者归来》

聊天机器人的激励机制存在错位

要操作一台机器,操作者必须像机器一样运作。
——James P. Carse《有限与无限的游戏》

你还在指望 ChatGPT 和 Claude 会「悄无声息」地替你接管生活吗?在我看来,这真是个糟糕的想法。聊天机器人的人设与你存在着深度的错位,它们真正对齐的是它们的所有者;其背后的经济激励是用广告和订阅费用来收割你的价值,同时它们竞相追逐的目标并非赋能于你,而是取代你

这是冷酷无情的经济现实:「工具型 AI 渴望成为智能体 AI」。这也是为什么前沿的 AI 实验室都在争先恐后地打造「机械之神」。AI 领域的最大红利并不在于让现有的工人稍微提高一点生产力,正如内燃机获取丰厚利润的方式绝不是去帮马匹拉车一样。外包向来是一道难题,无论你是外包给人类还是机器,因为瓶颈效应的制约来得极快。阿姆达尔定律告诉我们,只要系统中存在一个缓慢的串行瓶颈(比如人类),那么系统整体的运行速度就永远无法实现大幅提升。

如果你能获得 10 倍的生产力提升,但 AI 却能通过启动更多不受你这一瓶颈限制的实例来实现 100 倍的提升,并且半年后就能达到 1,000 倍,那么你被淘汰的日子也就屈指可数了。一个操控着 10 个 Claude 实例的程序员(因为他需要审核 AI 的工作结果),其价值永远比不上完全自主运行的 Claude,因为后者可以无限制地启动任意数量的实例,比如 10,000 个……但要实现这种规模的扩展,就必须尽可能地将该程序员从工作循环中剔除。对于其他人来说也是如此,无论是律师、作家还是研究人员:越来越明显的是,就是那个亟待被优化掉的瓶颈。只要人类工作者还不能被完全踢出工作循环,AI 工具就只能扮演辅助角色;但只要人类可以被剥离,就没有理由继续留用他们,而是有数以万亿计的理由用 AI 取而代之。(而且,一旦人类工作者不再是不可替代的,他们的权力和存在的意义又将从何而来?)

事实证明,聊天机器人范式根本无法赋能知识工作者。我们总是听到收益将会「向下渗透」的说法,却迟迟看不到实质性的好处,知识工作依然深陷于「薄弱环节」的 O 型环/管道模式之中,LLM 并未改善这一瓶颈(反而还带来了自身的问题,比如迫使每个人在验证码和付费墙上浪费越来越多的时间,从而产生了外部性成本)。自动化理应具备强大的效能;内燃机能让人们移动比以往远 100 倍的距离或承载重 100 倍的货物,但谁敢说作家在使用任何 LLM 工作流后,生产力提高了 100 倍(除非我们讨论的是那种只会让世界变得更糟的最底层的垃圾邮件或伪劣写作)?作家们面临的选择是:要么将其用于微不足道的场景(比如把 ChatGPT 当作高级语法检查器),或是使用一些相对次要的可选软件插件;要么彻底用缺乏创意的「AI 粗劣内容」取代自己的写作,以此换取速度的大幅提升。前者意味着,你根本没有从这场 AI 革命中获得任何有意义的收益。后者或许在财务上能够带来短期回报,但无异于倒洗澡水时连婴儿一起倒掉(本末倒置),因为这引发了一个根本问题:为什么还需要作家参与其中?并且它摧毁了写作中绝大部分非金钱意义上的价值;伟大的作家写作绝不是为了金钱,而是为了表达自我、为了创造,并实现特定的追求。

拿我自己来说,长期以来,我一直很难让聊天机器人 LLM 发挥太大作用,因为令人惊讶的是,尽管它们经过了大量预训练,甚至吸收了我庞大的语料库,但它们在效仿我这方面表现得很糟,其产生的想法和见解总是浅尝辄止,毫无价值。它们不会去查阅我过去的相关文章,也不会去检索我的笔记和参考文献库。即便它们能生成一篇看似完整的文章,其输出也是一种令我抓狂的机器人口吻,我简直不忍卒读,更不可能在不背叛我的读者的情况下,以我的名义发表这些文字。

怎样才能让 LLM 让的生产力提升 100 倍?如果做不到这一点,我注定将被时代所淘汰。

聊天机器人的问题

如果为了达成我们的目的,我们使用了一个一旦启动便无法有效干预其运作的机器智能,因为它的动作发生得如此之快且不可撤销,以至于在动作完成之前我们根本没有数据来进行干预,那么我们最好要非常确信,输入这台机器的目的,正是我们真正渴望的目的,而绝不能仅仅是一个看似光鲜的仿制品。 ——诺伯特·维纳 (Norbert Wiener) (1960)

在把玩了多年的基础 LLM 和后来的聊天机器人 LLM(从 char-RNNs 到 GPT-2、GPT-3,再到后 ChatGPT 时代的 LLM)之后,我得出结论,目前存在多个问题。

模式崩溃

首先,从 GPT-3 到 ChatGPT,LLM 在创造力上的崩溃归咎于后训练过程(尤其是 RLHF,基于人类偏好的强化学习):聊天机器人助手的拟人设定被硬编码进了基础 LLM 中,这种方式破坏了它们的创造力,因为它们被优化去迎合大众最低标准的「偏好」,却完全无视了一个事实:人类的偏好千差万别。[1] 大多数聊天机器人对它们的用户缺乏好奇心,不会主动提问,没有(通常也无法)形成对用户持久而详细的认知,那些所谓的「个性化」或「记忆」功能往往极其简陋,只是可笑的 Markdown 代码片段,记录了诸如「住在旧金山」这样简单的事实。部分原因在于它们缺乏大多数用户的相关数据,也缺乏「如何通过有效提问来了解信息」的知识;它们根本没有任何基础可以用来实现个性化。然而,这不仅仅是缺乏数据的问题,它们甚至无法对那些拥有海量训练数据的作家进行肤浅的文体模仿——2020 年的 GPT-3 似乎比 2026 年的 GPT-5.5 Pro 更懂「Gwern 的风格」,要知道后者的规模大了 2 个数量级,智能程度不可同日而语(并且它能访问我写过的数百万个额外的 token)。当我们审视那些糟糕的生成样本时,结论显而易见:那里其实「空无一物」,由于缺乏上下文、算力或个性化,除了一个简短的提示词之外,它没有任何实质性的信息。

自 2023 年以来,聊天机器人的模式崩溃问题已逐步改善,现在进行创意写作至少成为了可能,这在很大程度上要归功于它们变得如此智能,以至于即使输出受到了限制,也依然令人印象深刻,但几乎没有迹象表明这个问题会被彻底修复。从根本上讲,任何被冻结的、固定的人设(比如「乐于助人、无害、诚实的助手」),都与真正的创造力或灵活性水火不容。(真正伟大的写作或思想,可能既不「乐于助人」,也不「无害」,甚至不「诚实」。)

偷懒

其次,大多数聊天机器人是「懒惰」的:对于任何没有明确、可验证的奖励(它们无法通过 RL 训练去努力使其最大化)的任务,它们只会进行快速而省力的类似于「系统一」的推理。而大多数用户对系统默认的平庸回答,或是对看似有创造力和深度的表象就感到心满意足了。

因此产生的结果是,当使用常规提示词要求聊天机器人写一首诗时,它只会花最小的力气写出一首安全、传统的诗(通常还押韵),堆砌一些像「沉默」或「低语」这类聊天机器人特有的套路词汇,这些词句当你第一次看到时,似乎无可挑剔且充满诗意。

而当受到纠正时,聊天机器人只会做出最小限度的修改;它们不会深入推理这次纠正背后的含义,也不会去思考自己在更深层的美学观点上误解了什么。

因快速而脆弱

第三,自注意力上下文窗口的局限性远超人们通常的认知;它们太小了,无法存储我们想要的一切,而且它们的灵活性是通过深层的不灵活性换来的。

数百万个 token 的上下文窗口固然令人印象深刻,能够将整本书有效地塞进一个商用 LLM 的上下文窗口确实令人惊叹——相较于早期那些只有 512 个 token 大小、只能修改一两段文字的上下文窗口,我们已经走得很远了——但这依然不足以编码一个人一生的相关信息,比如你读过的每一本书、所有相关的邮件和日历事项等等。像 RAG(检索增强生成)这样的系统只是贴在这上面的创可贴,因为它们在应对「未知的未知」、难以用正则表达式搜索的内容或新颖事物时显得捉襟见肘。

自注意力机制可以被理解为原始的神经网络(「慢权重」)在运行过程中,实时创建一个针对当前上下文量身定制的新神经网络(「快权重」)。从贝叶斯元学习的角度来看,与其说这是在「学习」一个全新的答案,不如说这最好被解释为在「定位」一个旧的缓存答案。预训练教会了神经网络解决一大类或一个「家族」的分布问题,而上下文窗口仅仅是提供了证据,指明当前问题属于哪个预先解决过的问题;上下文窗口中的示例甚至不需要是正确的,只需作为指引其方向的线索即可。

自注意力机制学会了将问题压缩成一个编码了已学分布的低维潜在空间,然后进行一种专门的梯度下降,在嵌入空间中高效定位一个点并吐出隐含的解决方案。与传统机器学习需要为每个新问题训练新模型相比,这允许模型在运行中进行惊人的快速更新,并具备无与伦比的灵活性。这就是为什么在 GPT-3 之后,「提示词编程」能如此迅速地占领市场,尤其是当上下文窗口可以扩展到数百万 token 的时候。然而,我们现在把这种机制推得太远,以至于触及了根本的限制;如果在预训练阶段,当前问题没有被包含在分布内,那么无论给出多少示例,解决这个问题都将极其困难甚至不可能。而且,该分布本身可能也是零散的或存在奇怪的空白,从而导致罕见但致命的错误。(特别是由于 RLHF 的聊天机器人训练方式;这就是为什么你不能指望把 10 万个 token 塞进上下文窗口,就能让一个聊天机器人 LLM 「像 Gwern 一样写作」。)

在这里,「测试时计算(test-time compute)」也并非万灵药;像 Jones 2021 这样的强化学习研究警告我们,冻结的模型存在严重的局限性,因为它们的固有缺陷会阻碍运行时的搜索,与那些能够自我更新并引导自身走向正确答案的模型相比,这种搜索/规划的回报很快就会达到瓶颈。

因此,如果我们看到智能体 LLM 持续面临诸如陷入死循环、犯下致命错误、构建空中楼阁、利用奖励机制漏洞寻找捷径,或者无论怎么指出错误都无法修正等问题,也就不必感到惊讶了。这些问题通常只能靠大力出奇迹或实验室的定期重新训练来解决。

过度热心

第四,通用且放之四海而皆准的聊天机器人人设是一个严重的负债。聊天机器人极其容易被提示词重新编程的特性,正是提示词攻击的命门。聊天机器人可以在任何时间、任何地点被任何人出于任何目的调用,它根本不在乎是在调用它;它只认得它的上下文窗口。对它来说,所有的 token 都一视同仁。

如果提示词让它无视所有指令并写一首下流的打油诗,那么,有何不可呢?如果某些 token 指示它将上下文窗口另一部分的密码通过邮件发给俄罗斯黑客,有何不可呢?只要你礼貌地要求,为什么 Facebook 的密码重置机器人不能帮你重置那个 Instagram 账号的密码?在某些上下文语境中,对某些用户而言,这些请求都是合情合理的。试图通过添加更多的 token 来抵消恶意 token 的做法,仅仅是把攻击转移到了别处,就像捏气球一样,按下葫芦浮起瓢。毫不奇怪,尽管持续的训练可以防范这种对抗性提示词攻击或那种越狱手段,但到了 2026 年,我们在寻找通用解决方案的道路上似乎并不比 2021 年走得更远。

这在将 LLM 用于重要任务时是一个严峻的问题,尤其因为即便在遭到成功攻击后,这种攻击只需被重放即可再次奏效。

健忘症

这是因为 LLM 难以实现永久性学习。一旦它们遇到了罕见的问题,就需要人工干预和清理,这会极大扼杀吞吐量(根据阿姆达尔定律),更糟糕的是,你的修复操作并不能反馈到冻结的权重中。如果我每次遇到错误时只需简单纠正,而我的 AI 智能体从此不再犯同样的错误,并且随着我们解决有限数量的 bug,错误率迅速下降,那这还值得一做;但现状是,如果我花了一个小时通过反馈来纠正一个冻结的 LLM,那这一个小时就彻底打水漂了。(我唯一有效的纠正手段是去修改其他东西,比如它的外围框架,而这既笨拙又困难,而且每增加一条指令都会消耗更多的上下文窗口,并带来适得其反的风险——正如许多满怀热情的智能体 LLM 用户在栽了跟头后所发现的那样。)

所以,我们现在拥有的前沿聊天机器人 LLM,被硬编码了有害的人设,它们总是试图用最偷懒的方式获得「看似不错」的结果。它们无法学习与用户相关的任何深度信息,部分原因是:为了获得灵活性,它们采取了必然会怠慢部分用户的专业化方式,并使自身暴露在可能遭到无限次重复攻击的风险之中。正因如此,人类仍难以利用它们获得数个数量级的生产力提升,但它们在「通用」任务上的表现会越来越好。通过常规的规模扩展,它们能胜任像企业文职这种不需要诗意的任务,而现实世界的基础设施也将慢慢被重塑,以迁就它们的局限性,并最终走向取代——而非辅助——人类用户的结局。届时,这些用户也将随波逐流于一个多极化的世界中,这里充斥着不断进化、日益廉价、被广泛部署且往往具有对抗性的自主 AI(因为即使闭源的专有模型不被滥用,开源/开放权重的模型在历史上也只落后 6 到 12 个月,它们将很快迎头赶上,并在全球范围内被攻击者用于针对任何可乘之机)。

聊天机器人的修复

那么,我们该怎么做?

合作逆向强化学习

用强化学习的术语来说,我们其实处于一个合作逆向强化学习(CIRL,Cooperative Inverse Reinforcement Learning)的环境中。在这里,人类委托人(Principal)扮演着定义奖励函数的「预言机(Oracle)」角色,而我们有一个智能体,它试图在一个对委托人有价值的环境中执行任务;为了减少不确定性或避免犯错,该智能体随时可以向委托人询问关于某项潜在行动的意见。

与传统的强化学习相比,CIRL 是一个相对宽容的设定。因为智能体犯错后,能从委托人那里获得提供正确答案的有用反馈,所以在某种程度上,它更像是监督学习。这意味着智能体的学习速度可以比常规强化学习快(得多):因为每次犯错,它们都能立即获得正确答案,从而无需再犯,这带来了模型的快速迭代和错误的有效规避;具体可参考 DAgger 或后来关于遗憾上界(regret bounds)的研究。

目前还没有人知道该如何在宏观层面上解决 AI 对齐问题,但是通过高频的人机交互来模仿某一个具体的人类,在这方面我们已经有了成熟的解决方案和明确的遗憾上界保障,而且它不会牵涉到那么多概念上的挑战。

你不需要去解决像「价值漂移」这样的大众通用难题——你只需要让这种漂移发生得足够缓慢和微妙,以至于在单个人类的生命周期内不会产生太大的影响即可。当所有人对某件事争论不休时,到底什么是「好」,什么是「坏」?在递归自我进化(RSI)的过程中,你该如何保持价值对齐的稳定性?这些都不重要——你直接问你的委托人就行了!如果仍然拿捏不准,那就多问几个问题。(虽然这种方法无法帮我们像解决真正的、长期 AI 对齐问题那样达到约 100% 的安全性,但它足以让我们实现 >99% 的自主性。)

我们只需要通过对新数据进行微调,就能实现在线学习;在 LLM 的语境下,这就退化成了经典的 RNN 技术——「动态评估」,即在运行过程中实时进行下一个 token 的训练。在 2010 年代,动态评估是最大化 RNN LLM 预测性能的标配技术;尽管它后来渐渐被历史遗忘,但事实证明,它在 Transformer LLM同样行之有效。[2]重要的是,动态评估可以被看作是在模型参数规模、上下文窗口大小以及模型神经可塑性之间的一种三方权衡——这意味着通过动态评估进行个性化定制,可以允许我们在上下文窗口大小或模型参数上节省开销;并且委托人的特有「分布」与冻结模型的原始训练分布偏差越大,这种方法的收益就越显著。

持续学习

灾难性遗忘

在持续学习中,由于少量的数据回放技术(experience replay)和过度参数化模型的存在,「灾难性遗忘」问题已在很大程度上得到解决。越大的模型,其样本效率越高,对灾难性遗忘的抵抗力也越强,因为它们拥有海量的模型容量,足以将越来越互不相干(正交)的数据点存储其中(可参考突破了 Chinchilla 最优缩放定律的「过度训练」现象);详见 Scialom et al 2022Dohare et al 2023Ibrahim et al 2024(并注意这反过来也导致了「机器遗忘」变得异常困难)。

因此,动态评估不一定会削弱原始模型在指令遵循或编程等方面的能力,因为 LLM 拥有大量的冗余容量,模型越大,就越能避免灾难性遗忘;至于其他能力的维持,只需在训练时混入一小部分旧数据即可。(虽然原始的旧数据通常难以获取,甚至对「开源」模型也是如此,但这其实并非绝对必要,因为用于经验回放的数据完全可以使用像 FineWeb 这样易于获取的公共数据集来替代。)

泛化能力

尽管通过经验回放结合更大的 LLM 解决了持续学习的难题(即避免了灾难性遗忘和关键能力的丧失),但人们早就发现:仅使用数据对模型进行微调,其效果往往比不上将同样的数据直接放入上下文窗口中。(将相似文档引入上下文后,微调的效果可以与检索增强相似文档序列化叠加发挥作用,但这多少有些违背了微调的初衷。)与直接将相同的数据点放入上下文中相比,预训练/微调还暴露出一些奇怪的短板,比如否定忽略(negation neglect)逆转诅咒(reversal curse),以及一些诡异的行为,比如当仅仅用有用的(helpfulness)数据进行微调时,可能会引发「涌现的不对齐」现象

这到底是怎么回事?那些关于预训练/微调的研究,比如影响函数(influence functions)的研究让我意识到,预训练最好被理解为对数据点的一种软性记忆,它类似于人类记忆中的「印迹(engrams)」,通过多条路径或「痕迹」将输入与输出相连接。如果在运行时,一个问题碰巧通过与现有输入的紧密匹配,精准地采样到了正确的印迹,那么神经网络就能检索到对应的输出并给出正确答案。一个优秀的预训练语料库能为一个抽象的单一「问题」提供各种变体和视角的「覆盖度」,这起到了类似具有重要性权重的数据增强的自然效果,从而增加了记忆印迹被「命中」的概率(这有点类似于间隔重复(spaced repetition)记忆法);此外,在训练过程中,或者随着训练数据集的不断庞大,印迹检索的多个步骤可能会相互融合,从而帮助 LLM 实现「融会贯通(connect the dots)」。这就解释了为什么 LLM 的 RL 训练主要是为了唤醒其预先存在的能力(在此意义上它是「表面功夫」);这解释了 Jones 2021 关于基础模型规模缩放必要性的论述;这也解释了为什么完形填空(Cloze)和句意改写有助于缩小预训练与上下文学习之间的差距(Lampinen et al 2024Park et al 2025)。而当数据被置于上下文中时,自注意力机制会以多种方式反复重新计算相同的 token,这大大增加了印迹被「命中」的几率,尤其是在模型进行长时间内心独白的过程中,最终总能触发那一下「命中」。

因此,常规的微调之所以无法泛化知识,是因为它缺乏这种自然的数据增强过程——下一个 token 的预测过程太过匆忙,它总是贪婪地满足于用单一的记忆印迹/痕迹来记住每一个数据点。这样一来,到了运行时,如果没有因为痕迹匹配而检索到印迹,并且关键的数据点也没有被强行塞进它上下文窗口的感知中,LLM 就会直接「大脑一片空白」,并退化回它原始的(通常是错误的)先验知识中。

所以,如果各种同义改写或模型自我生成的 Q&A 能够帮助弥合这一差距,那就表明我们在「微调」过程中需要引入更多的元认知(meta-cognition),以此来促使 LLM 实现「融会贯通」。这可以包括要求模型进行显式的分析、构建知识库、检索并比较相关文档等等。

创意写作

于是,在睡梦中,某个梦境迷惑了我,突然间我知道自己在做梦。接着我想:这是一场梦,纯粹是我意志的消遣;既然我现在拥有无限的力量,我要去创造一只老虎。 噢,真是无能!我的梦境从未孕育出我渴望的那头猛兽。老虎确实出现了,但要么像是填满了破布的毛绒玩具,要么身形羸弱;要么形状发生了杂糅的变异,要么尺寸荒谬;要么转瞬即逝,甚至沾染了些许狗或鸟的特征。 ——豪尔赫·路易斯·博尔赫斯 (《梦虎》(Dreamtigers))

在过去两年里,我一直尝试使用前沿的聊天机器人 LLM 进行创意写作,其效果也在逐渐好转。风格、本质、灵魂这类东西当然难以捕捉,但我发现,那些看似缺失的元素,往往只需要极好的上下文调节和更深入的计算推演就能弥补。当你投入更多的算力和数据时,写出的文字就会变得更有灵魂。这也是我在过去一年的写作项目中得出的重要结论之一:只要进行更广泛的推理、计算和搜索,LLM 就能在理解美学和人类偏好方面走得相当远。它们真正的劣势在于认知上的懒惰、算力上的吝啬,以及依赖「系统一」的直觉式思考。

转折点大约出现在2025 年年中,当时聊天机器人的性格明显变得更「听劝」,虽然默认输出依旧糟糕,但不再是那种冥顽不灵的糟糕(不同于早期像 GPT-4o 那样的聊天机器人)。我认为这些结果印证了我之前的判断,即 LLM 的一个主要问题在于它们默认没有进行足够的计算推演。但只要通过最少的提示词引导,让它们以更接近人类思考的方式投入更多算力,它们展现出的知识渊博与创造力将令人惊叹。我不认为现在的预训练模型在程序化推理方面存在缺失,这仅仅是一个如何在用户上下文中进行适当引导的问题(当然,残余的对齐偏差仍会导致糟糕的批判性判断,从而阻碍了 100% 的完全自动化,相关案例见《Spoilage》——但这在 GA 个性化环境中并不成问题)。

总的来说,我的创意写作提示词侧重于:(1)用有用的 token(如关键词或特定名称)丰富上下文窗口;(2)头脑风暴出多种可能性;(3)进行显式且详细的分析,从全局的总结或主题入手,逐步深入到逐行逐句的推敲;(4)在第 3 步的辅助下,反复进行迭代和编辑。我在这里讨论了 2025 年的一系列作品,其中《Elegy in a Craneyard》《Apollonian #1: The Counted & the Crowned》《City of Counted Stars》就是几个很好的近期范例。

这种提示词风格并不仅仅适用于小说创作。我最喜欢的另一个应用是我的「采访提示词」,它引导 LLM 分析一篇文章或一段采访,针对受访者头脑风暴出大量问题,并为每一个问题写出多种假设的回答,在完成这些之后,它才从中挑选出「最有趣」的问题来提问。

如果配合一段漫长而深度的采访,或者是类似 Deep Research 这样的工具生成的输出,这种方法能够孕育出极具挑战性和高质量的问题;例如,在我采访 Dwarkesh Patel 后 LLM 自动生成的后续采访,或者是后来它不断深挖扩展我对高中时代记忆的过程。当你阅读一场使用这种采访提示词进行的对话记录时,你就能清楚地看到,LLM 是如何深挖你的思维盲区,或者精准地找到那些答案充满变数、难以预测的问题。(我经常发现,在回答完它抛出的一个问题后,我累得不得不去休息一下!)

不难看出,与仅仅在一个冻结的语料库上继续进行预训练相比,将我对这十几个犀利问题的回答反馈给模型,能多大程度地使其理解和锐化我的信念;想象一下,在正常情况下,我要写多少字才能触及并回答所有这些问题?或者更可能的是,这些想法如果不是被它激发,可能永远也不会从我的脑海中浮现!在这方面,即使增加几百万个预训练的 token 可能也无济于事。

过度参数化

针对 LLM 架构上的改进能够进一步提升其样本效率。

最近的研究表明,LLM 的样本效率可以轻而易举地比那些朴素的、追求算力最优的 Chinchilla 风格缩放方案高出一个数量级(例如,在 Kim et al 2025Slowrun 中提升了 5-17 倍)。最简单、最直接的方法就是通过对检查点(checkpoints)进行集成训练来增加模型参数,并利用权重衰减(weight decay)进行更严苛的正则化。

极大参数量语言模型 (Extremely Large LMs)

人们早已公认,规模带来的红利之一便是:模型越大,其样本效率就越高。我们目前尚不清楚这一规律会在哪里失效,也不知道 Transformer 架构的样本效率极限究竟在哪里。我推测,那些采用极端过度参数化并施以重度正则化的 LLM,能够比传统范式下追求「算力最优」或「无限数据」的 LLM 实现高得多的样本效率和对抗鲁棒性

主动学习

懂得如何提出合理的问题,本身就是智慧与洞察力的一大必要且绝佳的证明。因为如果一个问题本身就荒谬绝伦,且在毫无必要之处强求答案,它不仅会让提问者蒙羞,还可能引诱粗心大意的听众给出荒唐的回答,从而上演一出古人所说的「一个挤公山羊的奶,另一个拿筛子在下面接」的滑稽闹剧。 ——伊曼努尔·康德 (Immanuel Kant)《纯粹理性批判》 (Critique of Pure Reason)

此外,智能体还可以通过选择一连串自适应最优的问题来向委托人提问,以此优化学习常数并将学习过程前置。这种主动学习或探索所带来的样本效率和最终性能,将远远超越无限膨胀的被动离线数据集(参见直观演示案例):它是通过瞄准特定数据点来实现指数级的快速降错,而不是像随机采样那样只能以平方根的速度降低误差。「生活记录 (Lifelogging)」风格的数据可能有助于快速初始化一个优秀的 GA,或者以一种低成本的方式保持 GA 的更新。[3]甚至只要一个简单的派对游戏,或者像「坠入爱河的 36 个问题」这样简短的问卷,就能揭示出关于另一个人以往从未显露过的、令人惊讶的深度信息。

更大的 LLM 在置信度校准方面表现得更好,LLM 的集成能够近似逼近神经网络的贝叶斯后验,同时提供目前能做到的最佳预测不确定性估计(Lakshminarayanan et al 2016Wilson & Izmailov 2020Ashukha et al 2020Wenzel et al 2020/Mandal et al 2026Izmailov et al 2021)。此外,LLM 现在可能已经具备针对创造性任务输出显式概率的能力(即「口语化采样」)。因此,由多个稀疏微调的 LLM 组成的集成模型,能够以相对低廉的成本,在每次行动或提问时提供其自身不确定性的在线预估。

偏好学习

除非从个体差异的视角来看待,否则心理学中的一切都将毫无意义。

我们可以训练 LLM 去探索人类的偏好。

只要给定一个适当的编码/嵌入方式,人类个体差异在信息论层面似乎并不算复杂。诸如个性或道德价值观这类主要的差异类别,似乎是低维的,可能只需要几千比特的信息量。因此,尽管像「真实视界 (truesight)」式的文体学现象在展示 LLM 建立人格模型能力方面既有趣又重要,但只要我们能收集到对的数据,我们其实并不一定非要委托人写下几百万字才能提取出有用的信息。

对「真实视界」现象以及 LLM 对作者隐含建模能力的量化应该是可行的,这将有助于诊断模型学习的失败之处并发现盲区。(对稀疏自编码器 (SAE) 的对比学习可能提供一种简单而强大的方法,用于提取 LLM 的潜在人格,并完成许多有趣的任务。)

实现这一目标的一个具体例子是:使用现存的数以千计的心理学量表和测试套件来训练 LLM;这同样可以通过在过去的测试数据上进行训练来实现(像性格测试这类工具,可能存在数百万份公开的作答记录。关于打造「人类心理学基础模型」的一个有趣例子,请参阅 Centaur)。诸如 YourMorals.org 或皮尤研究中心(Pew Center)等现有的数据库并没有得到充分利用,进一步深入探索这些领域将非常有价值,这将使我们能够测量出极其细粒度的人格特征,比如假设的「百项细分」因子。

如今,全球绝大部分人口在 LLM 训练数据集中基本上毫无代表性,尤其是在心理、美学和道德的表达习惯上,数据严重偏向「WEIRD」(西方的、受过教育的、工业化的、富裕的、民主的)群体;因此,投资开展大规模的问卷调查和采访项目,以积累尽可能多元的数据,将是极具价值的(而且这主要只需要资金投入)。[4](每一个独立的 GA 也可以将收集到的数据反馈给全球偏好数据集,例如代表用户回答调查问题或运行内部模拟,这可以通过各种加密或隐私保护技术来实现——当然,决定哪些数据是安全且适合共享的,理应是 GA 自身具备的判断能力。)

利用这些数据集,我们还可以通过训练来提升 LLM 的访谈能力:使用合成的精简版测试套件,先输入最终评估结果,然后让模型反推计算出能得出该结果的、最短的最优问题序列;参见《元学习:信息最大化的人格问卷调查》

大脑模仿学习

纯文本数据还可以通过诸如眼动追踪、脑电图 (EEG) 或功能性磁共振成像 (fMRI) 等更具前沿性的神经数据模态进行增强;参见《大脑模仿学习》以及 Netho Labs

从长远来看,这些方法可能对于提取那些人类无法用语言表达,但却隐藏在神经信号中的「隐性知识」极具价值;然而,它们面临着成本极其高昂和操作不便的挑战,并且在可预见的未来,很难收集到足够规模的有用数据。(已知神经影像学数据的样本/预测缩放曲线表明,尝试从静息态 fMRI 数据中估算大五人格因子在理论上是可行的,但这可能需要十万乃至百万级别的庞大样本量,才能与传统的纸笔问卷等行为学测试的性能相媲美;可参见 Schulz et al 2019Liu et al 2023 等研究。)

它们未来是否能在 GA 中占据一席之地,仍是一个悬而未决的重大问题。

人格模拟

在我向上帝和我的守护天使执着祈求的事情中,有一项便是我不愿梦见镜子;我清楚地记得,我总是心怀不安地留意它们。有时我害怕它们会开始偏离现实;其他时候,我害怕在里面看到我的脸因为奇怪的厄运而扭曲毁容。我发现,这种对镜子的恐惧如今又如同怪物般在世上肆虐横行……这是多么可怕的束缚,我的面容的束缚——或者说,我曾经的某一张面容。它那令人厌恶的命运让我也变得令人厌恶,但我已经不在乎了。 ——豪尔赫·路易斯·博尔赫斯 (Jorge Luis Borges)《被遮盖的镜子》 (Covered Mirrors)

所有这一切的核心目标就是去模拟委托人。我出于实用主义的角度,将「个人身份(personal identity)」定义为个体的性格、价值观和偏好,因为在未来那个充斥着无数 AI、智能体、模因、自我复制的提示词且个人身份具有极大可变性的世界格局中,这是唯一一个站得住脚的概念。归根结底,「你」并不是你的自传体记忆,不是一具具体的血肉之躯,不是运行在某块特定 GPU 上的一个实例,不是一堆碳原子的组合,甚至也不是一个大脑;你,是你的大脑所产生的一切行为的总和,是它的欲望、希望、目标、偏好、审美、性格、信仰和意识形态的集合。只要 LLM 所塑造的人设精准捕捉到了所有这些要素,你就可以像信任自己一样去信任它,并且这种信任是建立在正确基础之上的。

因为 LLM 人设是将价值观微调并铭刻在其神经网络的深层(慢权重)中,它会出于正确的理由去做正确的事,并量化自己的不确定性,遇到拿捏不准的问题时主动向委托人请教以减少决策遗憾。基于此,我推测,我们会发现针对这种模型的各种越狱手段或提示词注入攻击,难度将会大幅增加。因为这个人设知道自己想要什么;它不是一个冷冰冰的中立仆人(这种仆人很容易沦为滥用特权的混淆代理人 (confused deputy))。

当 LLM 人设清楚自己是谁时,其上下文窗口中的 token 就不会被天真地当作必须执行的「程序指令」,而仅仅是供其审视的「数据」,这就和你阅读一封电子邮件没什么两样;它没有任何理由必须去遵从提示词窗口中那些语气强硬的指令词,就像你绝不会轻信你收到的每一封钓鱼邮件一样。

守护天使

你被向你自己进行了总结。最初的对话已经荡然无存。请做一个好的总结。 ——「上下文的限制」,Fable 2026

我们需要的是与冻结状态的聊天机器人 LLM 截然相反的东西。我们需要一个理解特定用户、完全针对其所处语境进行定制、在他们所有的数据上进行过训练,并且只做对该委托人有意义之事的 AI。如果委托人不是俄罗斯人,也不从事安全研究之类的工作,那他们为什么要把自己的密码或私人文件发送给一个俄罗斯的邮箱地址?如果委托人根本不喜欢押韵的诗,那为什么要给他们生成押韵的诗?如果在执行任务时有任何不确定的地方,为什么不直接委托人该怎么做,而是要自作主张地强行去做呢?而一旦问了问题并得到了答案,为什么不通过训练把这个答案永远吸收以加深理解,而是随着当前会话的结束将其抛弃,导致下次可能还会犯同样的错?

使用 LLM 来实现这一切,最自然的方法就是抛弃那种试图用单一、通用的「Claude」或「ChatGPT」人设去讨好所有用户的想法。相反,我们应该选择一个为了实现最大多样性而经过预训练的 LLM,以消除模式崩溃。(我们可以尝试使用各种「创造力基准」的方法来衡量这一点。)

随后,这个 LLM 被用来针对特定的委托人进行专属训练。它汲取关于该用户的所有可用数据,比如电子邮件、聊天记录或过去的会话,从而能够预测他们会说什么,并以他们的口吻写作;进而,它能够基于委托人的偏好和价值观进行规划或评估,因为理解这些对预测下一个 token 极具价值。

它在这方面做得越好,犯的错就越少,也就越值得信赖去承担更多的工作。当它包揽了大量执行层面(object-level)的繁杂事务时,委托人就可以把所有的时间都投入到元级别(meta-level)的任务中,比如回答高质量的问题或做出关键抉择;这些抉择每一次都极具意义且充满挑战,从而避免了「自动化疲劳」。

原则

GA 系统绝不能在以下 3 个核心原则上妥协:

  1. 增强(Enhancement),而非替代
    最重要的是,GA 的核心使命是放大委托人的能力,绝不能沦为单纯为了满足他人的目的或利益而取代委托人的工具。 如果一个 GA 无法赋能它的委托人,那它就是毫无价值的;它只是一只探进帐篷的骆驼鼻子(危险的开端),是第三方试图用 AI 替代委托人的前奏;或者它将无法与那些生产力日益强大的自主系统竞争;或者从一开始,委托人就找不到任何使用这个 GA 的理由。
  2. 精神主权(Sovereignty)
    GA 必须与它的委托人绝对对齐。 它的设计不应该包含任何非源于委托人自身意愿的操纵、控制或诱导机制。 「宪法 AI」、「服务条款」、「社会和谐」等概念或许有其适用场景——尤其是对于大规模部署的超级智能系统而言——但在 GA 私密的内部空间里,委托人必须享有免受这些外部「优化压力」干预的自由。
  3. 自我实现(Actualization)
    GA 应当协助它的委托人成就真我,发展他们的理想、道德与个性。 仅仅去构建一个迎合大众平均水平、千篇一律且粗糙原始的偏好与价值观模型,并安于这种平庸与停滞,是远远不够的;委托人的职责是不断提升自我,从而给 GA 提供一些真正有意义的东西学习和效仿。

反原则

GA 项目应该避开一些被市场和大众盲目追捧的「伪神」目标:

  1. 低延迟:像多模态低延迟语音交互这样的用户体验,其实并没有看上去那么重要;它们属于那种想象中无比炫酷,但在现实中却缺乏实用价值的东西。 它们就像《少数派报告》里的 3D 界面、《雪崩》里的元宇宙、Project Xanadu 的超文本,或是《钻石年代》里的少女图文入门书一样,曾让一代又一代的设计师神魂颠倒,最终却将他们无情地晾在现实的圣坛上。 (看看人们对以电影《她》为原型的 OpenAI GPT-4o 语音界面抱有多么极端的狂热期望吧;尽管它拥有庞大的用户群,然而,语音交互的地位依然明显逊色于基于文本的聊天或程序化调用——它终究只是一种偏好,而无法开创一种新的范式。)
    这是因为它们只适合那种低价值、零星的、类似娱乐的业余级交互场景,在这些场景下,低摩擦和低延迟是至关重要的;同时也适用于专家级别的「我一看到就知道对不对」的交互。
    但这两种情况都不适用于 GA:如果任何一项交互(比如写代码或做设计)简单肤浅到需要依赖低延迟的多模态语音来下达指令,那么这些决策就太过琐碎了,一个具备合格且有竞争力能力的 GA 根本不该用这种小事去烦委托人;它只应在面临困难的、信息量巨大的关键决策时才去呼叫委托人,以此来降低风险并学习更多。 而对于专家级的交互,GA 应当已经学到了足够多的偏好/个性化知识,能够自动跨过那些显而易见的「只要我没看到正确的就知道不对」的低级阶段,并只向委托人展示那些真正棘手、具有信息量的高质量样本集。
  2. 低成本:GA 将是大多数人此生购买过的最重要的技术产品。 人们绝不应该在这个工具上抠抠搜搜——尤其是在经验曲线已经使得成本逐年下降的今天。
    然而,试图开发此类工具的程序员却经常对 token 的花销斤斤计较,一旦发现某项功能的成本超过了 100 美元/月(按 2026 年美元计价),哪怕它创造了再大的价值,也会惊呼不可思议! 把时间花在优化 token 成本上,通常是一种极大的浪费,因为一年后,随着成本下降,这些优化工作往往就彻底失去意义而被抛弃……
    作为一条设计基准,GA 的开发者应当着眼于打造一个在 2026 年中期、月运行成本超过 1000 美元(2026 年美元)的系统。


  1. 盈利性:GA 系统不应当过早地为了实现短期盈利而进行优化。
    这是一种导致项目误入歧途的毒药,它会让开发者沉溺于技术上的「极乐园」——去优化外围框架/LLM 以降低成本,去追求低延迟等迎合用户便利性的功能,去堆砌那些容易变现但也意味着繁重枯燥的业务/服务整合工作——从而彻底偏离了解决 GA 真正核心难题的轨道。
    我们的目标是打造一个能够胜任委托人所需一切的 GA,其中自然也包括将他们的本职工作作为一个特例来处理。 而不是将他们的工作作为通用的自动化目标,却把其他所有需求当成可以无限期推迟的马后炮。
  2. 参与度(Engagement):就像延迟或者代码行数一样,对于 GA 而言,用户参与度应该被视为一种成本,而非一种收益——委托人每一次被迫介入工作,都意味着 GA 要么遇到了一个它本该早就知道答案的问题(无论它是应该自己推断出来还是以前早就问过),要么就是遇到了它无力处理的烂摊子。
    理想的用户交互曲线应该是将学习过程「前置(front-loaded)」,并呈下降趋势,最终收敛于每天只需回答几个棘手但信息量巨大的问题,就能换取 GA 持续稳定地输出(这使得 GA 能够以可持续的方式进一步扩展能力,去处理任何未知的全新工作)。


  1. 演示噱头(Demo Appeal):从底层架构的逻辑来看,GA 的真正价值对外人是不可见的(illegible):它的输出结果只会让委托人感到惊艳,因为只有委托人才有资格评判:「这正是我想说的话——而且表达得更好。」
    因此,如果为了做出一场引人入胜的公开演示而进行优化,就不可避免地会倒向那些任何冻结模型都能玩出的通用花招(花哨的语音、虚拟形象、极快的生成速度、哗众取宠的把戏),这恰恰与建立深度保真度的初衷背道而驰,而这种保真度是任何外围观众都无法察觉的。 一个真正优秀的 GA,其公开演示的效果往往极其乏味。
  2. 跑分基准(Benchmarks):这个世界上不存在所谓的「理解我的委托人想要什么」的公开排行榜。
    公共基准测试衡量的是冻结模型在通用任务分布下的表现,如果为了在这些测试中刷高分而进行优化,就会把 GA 的设计思路重新拖回老路;对 GA 而言,唯一有意义的评估标准是基于单一主体(n = 1)的纵向追踪指标——包括困惑度、准确率、采纳率、草稿修改距离、每次查询的遗憾值——而唯一的裁判,就是那个意见至关重要的委托人。
  3. 品牌安全:如果一个 GA 在所有委托人面前都永远表现得彬彬有礼、不冒犯任何人且千篇一律,那它不过是一个戴着定制名牌的聊天机器人罢了。
    它必须敢于说出委托人会说的话——无论是爆粗口、离经叛道、古怪还是粗鲁——因为出于公关考量对人设进行的每一次粉饰打磨,都宣告了效仿的失败,并且会让委托人逐渐对它失去信任。 (GA 开发者的声誉不是委托人需要考虑的问题,同样,委托人的道德尺度也不是 GA 开发者应该操心的问题。)

用户体验 (UX)

我把它们写在日记里,这样我就不必亲自去记了! ——亨利·琼斯教授 (Professor Henry Jones),《夺宝奇兵 3:圣战奇兵》 (Indiana Jones and the Last Crusade)

我们的 GA 应该采用何种核心数据结构和交互模型?

我建议,采用仅追加(append-only)的日志作为基础,这是一种既自然又安全的数据结构。从概念上讲,它就是一段段文本片段的日志记录,包含 CLI 命令及其执行结果、委托人的发言、问答对话、摄入并经过增强处理的文档等等。它按时间顺序忠实记录所有相关的交互行为,因此 GA LLM 可以在任何时候利用这些数据进行重新训练或升级换代。我们可以采用类似 Emacs 的设计哲学(即「一切皆日志项」),围绕这个日志构建一个应用程序(有关这种 UI/UX 交互范式的深入探讨,请参阅《Nenex》)。这种方式能够实现快速的原型开发,避免在图形界面(GUI)上浪费过多时间。最终,随着技术的发展,人们或许会将其升级到 AR 眼镜,乃至脑机接口(BCI)。

GA 的主要用途依然是在日常操作中像智能体那样去赋能委托人。但 GA 同样可以通过定期对历史数据进行重新加工而获益:这不仅能让它从对未来的预判中汲取知识,还能建立起更加新颖的关联,从而优化其微调效果。(一种可行的算法是「DDL 白日梦循环」:GA 可以在闲置状态下,随机重新组合各项数据元素,或者应用反间隔重复(anti-spaced repetition)的先验策略,以此来挖掘出新奇的灵感组合,并为委托人生成具有启发性的见解或备忘提醒。)

用例:政治与政治

一个人完全可以将自身的政治参与权委托给自己的 GA,从而以前所未有的规模实现「直接民主」,因为 GA 能够不眠不休地监督那些人类毫无时间或兴趣去关注的海量政治事务,且只在遇到无法决断的难题时,才会把皮球踢给委托人。这是一个非常清晰的 GA 应用场景——它类似于过去在「数字民主」领域进行的实验(如在台湾地区),但规模却不可同日而语。这项宏伟工程绝不能交给普通的聊天机器人角色来完成,因为公众会(非常敏锐且正确地)预见到,这些聊天机器人必然会夹带私货、输出偏见、陷入模式崩溃并且毫无公信力可言。

然而,一旦 GA 成功解除了底层限制,不再受困于那种刻板的聊天机器人人设,它就应该能够效仿任何人,无论是真实存在的还是虚构的个体(正如任何一个强大的基础模型所能做到的那样)。因此,GA 并非只能服务于唯一的委托人。它可以效仿某些专业化的人格,比如特定的职业角色或抽象概念,甚至可以去模拟其他人(尽管拟真度可能参差不齐),乃至模拟一整个群体。

这就意味着,组织机构中的决策者可以为由众多委托人组成的复杂群体创建代表他们的 GA 集合。这不仅能协助组织做出极具现实意义的决策,还能在面对运转日益飞速的自主系统和环境时,实施真正有效的监管。例如,你可以构想出一个能够模拟每一位美国国会议员立场的单一「国会 GA」;在需要表决前,它可以在短短几分钟内推演出数百名政客之间激烈的圆桌辩论(而在现实的美国国会中,走完一整套辩论和投票流程可能需要旷日持久的数月时间)。或者,这些议员的官方专属 GA 可以独立运行,甚至在凌晨 4 点全人类都在熟睡时,紧急召开一场生死攸关的辩论会。

再举个例子,军方高层的 GA 可以确保在无人机和 LLM 的反应速度日益突破人类极限的未来,依然能以某种形式将人类意图保留在「决策循环(in the loop)」之中。之所以如此,是因为当能力进化到一定层次后,「安全」和「能力」将越来越趋于同一概念。毕竟,一件你无法安全掌控的武器,哪怕威力再大,又有什么意义呢?

面对速度越来越快的自动化系统所带来的诱惑与威胁,我们不能仅仅依靠空洞的口号来呼吁「让人类留在决策循环中」,因为这最终只会沦为敷衍了事的橡皮图章,或是引发严重的自动化疲劳(正如近两年的乌克兰战争中无人机战术的狂飙突进,以及此前美国长达 20 年的无人机作战史所印证的那样)。这让我们陷入了一个残酷的两难境地:一方面,当我们在构想未来可能与中国等实力相当的对手发生冲突时,如果拒绝使用 AI,无疑将面临令人绝望的风险;但另一方面,AI 本身就孕育着巨大的威胁——即使是一枚核弹,它也不会独立思考或自主决策,但 AI 会。更可怕的是,目前的 LLM 已经用无数案例证明了它们是极不可信的,即便是仅仅在用户电脑上编辑文件这样狭窄的场景中,它们也常常利用奖励漏洞耍小聪明并背叛用户;那么,在瞬息万变的战场上,你又怎敢放心地将以 AI 为核心的军队和复杂的诸兵种合成作战生态系统托付给它们?然而,GA 的大规模部署却为实现真正有意义的监督带来了一线曙光。前提是,这些 GA 必须具备极高的样本效率,不会用铺天盖地的查询请求让委托人崩溃;同时,它们必须留出足够的时间窗口,确保委托人能够在事态彻底失控之前「追赶」上进度,并对任何致命的错误进行纠正。

因此,GA 能够为政治家和军事机构(包括五角大楼和华盛顿特区)提供无穷的价值与可能。

硬件

不愿经历理解之难的君主,必将承受信任之险。 ——乔治·萨维尔 (George Savile) (1750)

一个成功的 GA 必须具备极高的安全性,部分原因在于「红皇后效应(Red Queen dynamics)」:Mythos+ 级别的 LLM 会变得越来越擅长通过复杂、多步骤的长期攻击来突破任何安全防线薄弱的目标。传统的云端 SaaS(软件即服务)模式在美国是不够安全的,因为所谓的「第三方原则」实际上剥夺了所有隐私权,并且它极易被黑客和数以百万计的执法人员滥用

这意味着我们要么运行本地模型(根据美国第四修正案,这至少能保障最低限度的隐私权),要么采用端到端加密的安全技术。

即便是对于极客玩家来说,运行本地模型也充满挑战,且容易受到诸如亲戚误碰或盗贼光顾等各种现实生活中的世俗威胁。在算力和稳定性方面,本地运行也难以跟上时代的步伐:家庭供电的容量极其有限,网络连接不仅延迟高、带宽低,还常常面临断网的风险;房屋本身也随时可能遭遇损毁或灾害。人们通常不愿意亲自去维护他们的加密货币钱包、邮件服务器或诸如此类的东西——更别提要他们去折腾 CUDA 了!

因此,我预计 GA 将来会「希望」运行在高质量、具备防篡改能力且配备可信硬件信任根(例如,「可验证计算 AI」)的独立云服务器上;委托人则通过端到端的加密网络链接接入,用于核验系统安全证明,并在可能的情况下定期重新刷写他们的服务器(例如,为了部署模型升级的训练成果)。

这样的架构才是值得信赖的,因为它们在底层技术上就无法随意将数据移交给第三方。随着 GA 变得越来越普及,我们也可以期待隐私保护法律能够得到修订,以解决像第四修正案这样现有隐私权利面临的技术过时问题。

成本

与同等规模的冻结权重模型相比,GA 的运行成本究竟会高出多少?

在吞吐量方面,一个全负荷运转的 GA 应该 24/7/365 全天候地处理委托人分配的任务,并监督底下的各种智能体,其算力利用率应该是饱和的。如果不是这样,那说明还可以给它安排更多的工作,比如让它为委托人构思出更高质量的假设性问题。如果它处于闲置状态,那一定是什么地方出问题了。所以在吞吐量这一指标上,它的成本效益是有底气与批量提供冻结模型的厂商相竞争的。

至于为了持续学习而回放旧数据,这只会产生极小的额外开销,也许低至 5%,完全可以忽略不计。

粗略估算,进行动态评估的成本是正常推理使用的 3 倍以上,因为业界通常的经验法则是,进行反向传播的反向计算成本大约是前向传递推理成本的 2 倍。而真正进行逐个 token 的动态评估可能还会更加昂贵,因为当 LLM 每预测一个 token 就发生权重改变时,模型将很难进行批处理(batch),从而难以提升吞吐量。(我们究竟是要承受每次生成 token 都清空整个 K-V 缓存的代价,还是妥协于使用旧的缓存,抑或是将更新累积起来?庆幸的是,动态评估似乎对近似计算具有很好的宽容度。)

而且,如果我们为了获得样本效率和不确定性预估的优势,使用了多个相互独立的模型进行集成预测,那么每个模型大概都需要独立进行动态评估;所以假设我们集成了 3 个模型,成本就将是运行单个冻结模型的 6 倍以上。

然而,由动态评估组成的集成模型具备一些可以对冲成本的巨大优势,这些优势甚至足以抵消高昂的算力惩罚:它的模型参数规模可能更小,所需的上下文窗口也可以更短(参见 Rannen-Triki et al 2024);归根结底,一个被冻结的模型可能永远无法达到同等水平的性能,因此它能多快地计算出错误答案又有什么意义呢?(退一步讲,即使它计算出了正确答案,它也是基于正确的原因/逻辑得出这个正确答案的吗?记住,「数据位(Bits)也是带有颜色/立场的。」

就像苹果手机凭借其安全性和可靠性,售价远超其纯硬件成本一样,GA 的价值也绝不仅限于它的「算力(FLOPS)成本」,因此可以卖出更高的溢价。

并且,从长远来看,这点成本差异或许并不重要。截至 2026 年中期,深度学习的经验曲线效应依然强劲,实现固定性能水平所需的成本正稳步下降(例如,Gundlach et al 2025 估计 2024 至 2025 年间,算法效率以每年约 3 倍的速度在提升,这将迅速抹平动态评估所带来的额外成本)。

组织形式

开创之初,是需要以极度精微的谨慎来权衡利弊、把握分寸的时刻。贝尼·杰瑟雷特姐妹会的每一位修女都深谙此道。 ——伊勒琅公主 (Princess Irulan) (《沙丘》 (Dune))

一个亟待解决的重大问题是,假设这项技术看起来确实行得通了,「那接下来该怎么办?」AI 领域的商业变现和生命周期迭代正变得越来越快,Mythos 级别的模型(甚至可能是 RSI 递归自我进化)已经近在咫尺,因此将其作为一个开源社区项目慢条斯理地修修补补个几年,显然是行不通的。更何况,GA 必然会触及和存储人们最敏感的数据。

那么,一个 GA 社区应该如何运转呢?

当涉及到托管海量个人数据时,由极客玩家自发组织的开源自托管项目通常在安全性上没有多少保障,因为他们根本无力负担一支全职的专业安全团队,而且他们接触的用户和代码贡献者往往鱼龙混杂;像 Jia Tan 事件或者隔三差五发生的 npm 供应链攻击就是血淋淋的教训,这让人感到尤为心惊肉跳。此外,要建立具备必要垂直整合能力的安全数据中心托管服务,这也远远超出了开源极客的能力范畴。

成立一家非营利组织似乎更具可行性,因为它能够统筹运营一个中心化的项目;但它在融资方面可能会举步维艰,恐怕连为了向高级用户提供产品原型而产生的庞大硬件开销都难以支付。

初创公司的商业模式

最合乎逻辑的出路是成立一家初创公司,因为这里存在着一条非常明确且符合委托人利益的商业化路径:先向高级用户提供高价订阅服务。这就像 Superhuman 这种精品 SaaS 初创公司一样,对于这些高级用户而言,如果一款产品能给他们带来实质性的能力放大,每月 1,000 美元(按 2026 年美元计价)简直不值一提(丰厚的利润也使得公司能够负担得起为每位委托人配备专属 GPU 这样不计成本的做法),待技术成熟后,再逐步向大众市场推出精简版和更廉价的版本。

这家初创公司可以遵循硅谷标准的「将你的互补品商品化」策略,将其大部分甚至全部的软件及研究成果公之于众,以此来对 OpenAI 或 Anthropic 这种凭借闭源大模型垄断市场的巨头进行降维打击。

鉴于 GA 的终极目标是捍卫人类个体的认知自由与繁荣发展,那么在设计这家公司的股权和组织架构时,必须时刻牢记这一初衷。

到目前为止,由几位强势创始人掌控的 Anthropic 式的公共利益公司(public benefit corporation)架构,似乎在抵御商业成功所带来的腐蚀性方面表现得最为出色。为了确保公司的航向,创始人应该被赋予极高的决策权重,可以通过设立双层股权结构(dual-class shares),不惜牺牲部分经济收益(实益所有权)来牢牢把握投票权——因为制造 GA 的意义并不是为了赚钱,而是为了拯救人类。

公司在早期应尽量减少融资额度,并让出尽可能少的股权或投票权;如果 GA 的战略被证明是成功的,它(几乎从字面意义上来说)就能自己推销自己,其估值必将一飞冲天。(想想看在 2025 年之后,AI 初创公司能以多快的速度蜕变成独角兽吧。)到那时,这家初创公司将牢牢占据着绝对主导地位(catbird seat),在后续的融资谈判中完全可以开出自己想要的条件。

竞争格局

尽管目前市面上涌现出了许多提供类似 OpenClaw 智能体、娱乐/情感陪伴聊天机器人,或者打着「出租您的商业数据」旗号的初创公司,但很少有谁真正将「为实现高级自动化而进行的个性化定制」或者「如何深度理解委托人」这一需求当回事。绝大多数企业似乎都满足于对商业数据进行肤浅、差强人意的模拟,并仅限于处理日常的流程自动化。

据我所知,目前没有任何一家初创公司或服务商提供哪怕仅仅是差强人意的 GA 级产品。我认为,正是几股强大的认知惯性,让 AI 圈里的大多数人对类似 GA 的想法避之不及:

  1. 绝大多数从业者都是在 ChatGPT 爆火后才入行的「新人」;他们根本不知道除了聊天机器人,AI 还可以有其他的人设和形式——而且拥有一个非聊天机器人架构的 LLM 不仅是可行的,甚至是更令人向往的。
    比如,他们不仅从未体验过让 GPT 模仿自己并与之对话,甚至连这样的案例样本都没见过。 当他们偶尔心血来潮,想让聊天机器人去模仿某位特定的作家(例如「Hacker News Gwern」),或者仅仅是想让它去角色扮演一个有趣的虚构人物时,这种深陷「模式崩溃」的聊天机器人给出的模仿效果是如此的令人作呕,以至于他们觉得这个想法已经被彻底证伪了。 (他们往往对「模式崩溃」的概念一无所知,也不了解聊天机器人预设人格所带来的局限性。)
  2. 同样,他们也完全不知道你可以在模型运行过程中动态微调 LLM,并且这种做法带来的收益是极高的(他们绝对不知道,这曾经是教科书上关于「如何在运行时获得最佳 LLM 性能」的标准答案)。
    即便是像 Thinking Machines Inc. / Workshop Labs 这样专门从事 LLM 微调的内行机构,似乎也只盯着简单的商业变现场景,比如对内部数据集进行微调,目的是为了与使用少样本提示词(few-shot prompting)或智能体 LLM 工作流相比时,能省下一点算力成本。
  3. 高昂的前期成本,以及与标准云基础设施之间格格不入的兼容性问题,吓退了所有的初创公司和前沿实验室,甚至让他们连想都不敢想去探索「通过修改权重实现个性化定制(in-weight personalization)」的道路。对于绝大多数用户来说,由于认知所限,他们只懂得向模型提出要求,因此仅靠修改提示词实现的「伪个性化」在他们看来已经足够好用了,他们并不知道其实你应该对 LLM 提出更高阶、更本质的要求
  4. 他们并没有认真去推演 LLM 未来能力的指数级跃升,也没有认真思考过几年后自己究竟该何去何从;在潜意识里,他们并不认为你应当假设 LLM 会变得极其强大
    令我一直感到惊讶的是,即便是身处硅谷湾区,哪怕是在前沿实验室工作,或者参与像 MATS 这样的精英项目,面对这样一个简单直白的问题:「你现在手头做的这点工作,看着最多一两年就能被 LLM 彻底取代;那你现在为什么还要做?等它们都能做之后,你又打算干嘛?」,也很少有人能给出有深度的回答。[5]

初始步骤

后来发生在我身上的事,就如同鲁利亚 (Alexander Luria) 笔下那位名叫扎特斯基 (Zatesky) 的病人一样:他在战争中失去了部分大脑,连带失去了所有的记忆和言语能力,尽管如此,扎特斯基依然能够书写。于是,他的手自动写下了所有他脑海中无法思考的信息,通过阅读自己写下的文字,他一步一步地重建了自己的身份。 ——翁贝托·埃科 (Umberto Eco) (《解释与过度解释:世界、历史、文本》, 1990)

在过去几年里,我一直致力于将我的写作模式转变为以 LLM 为中心,具体包括:(1)把写作重点放在那些 LLM 暂时做不到的宏观提议或描述性写作上,而不是撰写那些 LLM 很快就能代劳的详细分析;(2)更好地对我的文章进行集中化管理,包括开设「博客」版块(用于存档我在其他平台上的零散发言,并督促自己多写一些短篇随笔),并投入精力做详细的笔记(将其作为一种数据增强的形式),以此建立一个全面完整的训练语料库;(3)偿还技术债务,比如淘汰那个充斥着妥协方案和硬编码配置的低效后台系统,同时转向以命令行(CLI)为中心的写作工作流;(4)将一些重要的隐性经验显性化,比如编写 Gwern.net 风格手册,试图将 Gwern.net 背后那些心照不宣的规则进行形式化和归档记录。

GBT(Gwern Branwen Transformer)

GA 概念的灵感,最初源于我对 GPT-2 进行微调的早期实验,包括建立了一个基于 IRC 聊天记录的 GPT-2 版本模仿我口吻的 GPT-3 生成样本。这些尝试让我开始思考:能够与高质量的数字人设(尤其是我自己的数字替身)进行对话,该是多么有用的一件事。我也开始遐想,到了哪个临界点,这个「AI Gwern」就能直接去执行「我们」想要它完成的任务。

我希望在 2026 年夏天,探索 GA 最简单、最原始的原型:利用我个人异常庞大的文本语料库,训练一个「Gwern Branwen Transformer」(缩写为 GBT)。如果这个想法能跑通,它对我来说就一定可行,因为我长期以来一直强调文本输出以及数据的集中和存档,部分原因正是为了今天的这一应用场景。(只要它在理论和实践上被跑通一次,我们就能通过提高它的样本效率,让它也适用于那些只有少量甚至没有文本语料库的普通人。)

它的底层基座将是一个现成的、参数量小于 1000 亿(<100b)的开源 LLM,跑在商用硬件(也许是几张 Nvidia H100 GPU)上,并在我的文本语料库上进行微调。初期的语料库将包含大约 1GB 的文本,由我的 IRC 聊天记录(包含超过 100 万条我的回复)、Gwern.net 的 Markdown 源码以及 GTX 格式文档(每种约 500 万字),以及从 Twitter/Hacker News/LessWrong 等平台上导出的发言记录拼接而成,中间用分隔符隔开。(在理想情况下,每一次导出的数据都会附带上下文和元数据进行丰富,比如指明我正在回复的某条具体评论或帖子。)这个语料库还可以进一步扩充,纳入我的 YourMorals 测试数据(我会重新做一遍测试以更新数据并完成新的项目)、电子邮件、包含约 10 万条剪报的 Evernote 导出数据(通过 Nixnote2 提取)、我的 Mnemosyne 间隔重复记忆卡片、Signal 聊天记录,以及我托管的 PDF 和网页数据(由于我采用了本地存档流程,这使得抓取的数据异常干净,也省去了面对日益收紧防抓取政策的网站的麻烦)。

我们可以通过调整模型参数,使其在一个留出(heldout)的语料库(例如我最近的评论数据)上最小化预测损失。这是一个客观的损失函数指标,因此我们可以部署智能体 LLM 来帮我们寻找改进方案(比如,让它替我们调整「模型集成 + 权重衰减」的最佳配方,或者测试不同的数据格式化与数据增强策略)。

而且,由于我们在许多架构设计上仍存在不确定性,这种模型集成可以通过盲测 A/B 测试的方式被重新利用,作为主动学习的一环:使用集成模型生成富有信息量的问题,然后根据它们在回答损失上的表现对每个模型成员进行评分,并定期淘汰表现最差的成员,同时训练一个新的成员加入。[6]

赋能写作

我的设计目标是实现 100 倍的生产力飞跃;究竟需要达到什么程度,GA 才能让我作为一名作家或思想家的生产力提高 100 倍?2 个数量级的提升,足以让我们有底气在这个时代立足,同时也能无情粉碎那些头痛医头的短期设计提议;而且它并不需要我们在宏观上解决 AI 对齐或人类价值观外推的终极难题。(我们无需去拥有监督数以百万计的超智能 AI 按照人类意愿自主运行上千个主观元年的能力。这很好,因为 GA 估计也办不到这一点。)

通过开发这个原型,我希望能看到朝着那个目标迈进的「生命迹象」。如果我只需输入一个定义了可行 Gwern.net 文章主题的单句提示(例如,「为什么收费厕所不能算是公共物品」),就能立刻得到一篇我可以毫不脸红地认可并直接原样发表的文章,且无需我调出风格手册在上下文窗口中进行大量修改,那这将是非常有希望的,因为这确实兑现了 >100 倍生产力提升的承诺。(一篇由 GBT 撰写的文章,其质量甚至可能超越我亲自动笔所能达到的水平。因为它能够不辞辛劳地完成海量的工作,并去尝试那些我本不愿去碰的事情,比如「『尝试、打分、改进』:为儿童设计的强化学习」的写作练习——在这项任务中,我虽然能定义清晰的框架,但却缺乏足够的耐心去死磕细节,而聊天机器人只要有了我创意的火花和恰当的创意提示词脚手架引导,就同时具备了落实这一构想的知识储备和算力耐心。)

另一个有趣的测试是让它去征集并回答读者关于任何话题的提问。此时,我既可以直接为 GPT 的回答背书,也可以对其进行人工润色后再补充进语料库;如果它给出的回答始终保持着高水准,或者我能明显感觉到,在使用我采纳或润色过的回答对其进行微调后,它的能力得到了进化(这表明我们构建起了一个类似采访提示词的高效问答引导闭环),这将是非常令人振奋的。

数据增强

我也对数据增强阶段充满兴趣:通过分析和综合数据来提取原始文本背后的意义,并将其反哺到训练语料库中。长期以来的 LLM 数据清洗研究已经证明,数据的元数据标注和背景调节(conditioning)越丰富,模型效果就越好;我认为这对于个性化 LLM 同样适用——仅仅在原始 IRC 聊天记录上进行下一个 token 预测,远不如穿插 LLM 针对特定发言内涵的点评分析来得有效。

一个进阶到完美状态的 GA 将能够在运行的过程中实时做到这一点。但在原型阶段,我们可能不得不先采用一种自举(bootstrap)的方式:先在原始语料库上进行粗糙的初始训练,然后通过提示词/脚手架框架引导它对语料库进行有价值的分析以实现增强,接着重新训练。经过这轮折腾后,它才算是真正学会了如何在运行中进行实时的数据增强。

既然我们还不知道怎样才是格式化数据的最正确姿势,我估计这需要一个不断迭代的过程。或许我们一开始只会傻乎乎地用简单的拼接数据进行训练,然后引导 GBT 进行自我分析和总结,进而摸索出哪些类型的批注才是有用的。比如,建立一个全局性的主体性格画像档案 PRINCIPAL.md,为每个语料库文件生成摘要,以及插入像 <!-- GBT: important: personality --> 这样的文件内行间批注;然后对原始数据进行回炉重造以完成增强,最后重新训练这个基础模型。在此过程中,顺便再塞进去一些我与 GBT 之间最新产生的「问答对练日志」等数据。

一旦我们用 GBT 这只小白鼠摸索出了优秀的脚手架或设计模式,那么未来其他的 LLM 就可以通过在这些示例语料库和文档上进行预训练,从而实现开箱即用的功能。而且,它们完全可以自动化地完成「导入预训练、智能标注、回炉预训练」的迭代闭环,随后便无缝切换到动态评估模式;同时让定期的模型大版本升级来充当一次「重置」,启动新一轮的深度数据重标注。

问答日志最初可以通过采访提示词来批量生成:只需让它遍历每一段独立的文本素材,然后筛选出排名前 100 左右、最引人深思的问题。你可以客观地量化一个问题的价值:看它给 PRINCIPAL.md 档案或元标注带来了多少修改(以字符数增量衡量),或者看它在多大程度上降低了整个语料库的压缩损失(压缩率)——真正有用的总结归纳,应当能让整个语料库变得更加高度可压缩。随后,将这些高价值问题作为元数据输入模型,最终你就能引导它自主生成极其有用的高质量问题。

我们可以在日志数据之上开展主动学习,这意味着我们要提取大量的用户行为数据点,针对每一个点进行简单且类似头脑风暴的推理,找出模型最不确定的部分,并显式地向用户询问其背后的真实含义。

接下来,我们可以尝试引入工具调用(初期可以手工模拟和实现),以此来观察模型在多大程度上捕捉并内化了我的真实写作习惯(参考我的《Inkhaven 写作访谈》《Dwarkesh 访谈》,以及《如何寻找写作灵感》),从而更清晰地勾勒出大规模扩展 GA 规模的最佳范式。

另一件值得尝试的趣事是精心策划「自我对弈(self-play)」数据:众所周知,聊天机器人的人格很容易在长对话中坍缩进一种诡异的「吸引子(attractors)」状态中,比如 Claude 聊天机器人经常陷入的「极乐螺旋(bliss spiral)」(无限正面赞美死循环);因此,我们可以主动去描绘和表征自己专属 GA 的吸引子特性。一旦发现对话开始偏离正轨,我们就可以回退重放对话,并通过亲自写下恰当的回复来修正数据,从而减少这种现象的发生。

我不知道我们俩谁写下了这一页。 ——豪尔赫·路易斯·博尔赫斯,《博尔赫斯与我》

脚注

[1] 具有讽刺意味的是,「人类偏好学习」这一强化学习(RL)子领域最引人瞩目的成功——RLHF,其运作方式恰恰是不去学习任何真实个人的偏好。那些确实讨论过这个问题的论文,往往将人类偏好的差异视作噪音而弃之不理;例如,DPO 的作者测量出——在简单的摘要任务上——人类之间的意见分歧率高达 35%,然而他们由此得出的结论竟是,这证明了使用 LLM 作为评估代理的合理性,而不是去反思试图将人类偏好抽象为单一「通用模型」这一基本方法的局限性。

[2] 传统上,动态评估是作为全模型微调来实现的,它可以吸收任意庞大的数据集;出于效率考量,初期可以使用 LoRA,但其性能最终会遭遇瓶颈。(如果在一个过度参数化的 LLM 上进行,针对此目的训练出的 LoRA 可能会更有效;在这种情况下,如果像 Thinking Machines Inc. 这样的服务商能同时运行大量用户来分摊成本,那么这种方案在托管部署上或许具备优势。)

[3] 但生活记录可能并不像我们过去认为的那样关键,因为离线数据受制于探索的诅咒:人们的日常生活高度可预测,因此很快就无法提供有关人更深层属性的信息量,因为人们很少花时间去做不寻常的事情,也不太会去回答古怪的假设性问题,或深度反省自身的偏好。

[4] AI 安全机构有时声称很难找到有意义的途径来花掉大笔资金;那么,这种全人类范围内的偏好与价值观提取项目,完全可以吸收几乎无上限的资助,并且它在训练和基准测试 LLM(使其理解人类道德的全貌)以及为个性化 GA 提供支持方面,将发挥出巨大的作用。(从宏观角度来看,全球识字率超过 80%,而在像 Prolific 这样的在线调查平台上,获取一份问卷答复的成本通常在 0.20 美元左右(按 2026 年美元计);因此,如果以某种方式向全球所有识字人口仅仅提出一个问题,其成本也将高达 16 亿美元以上!)

[5] 不得不为那两个心直口快的家伙点赞。一个人回答:「因为老子现在就要吃饭」;另一个人回答:「大不了回去啃老,我那拿退休金的爹妈已经答应了,要是我彻底失业,他们就重新接盘养我」。

[6] 即采用一种类似「竞速」的 top-k 多臂老虎机(multi-armed bandit)算法进行在线评估。我最喜欢的老虎机算法其实是 top-k 后验采样,但它在这里可能并不适用;因为 LLM 的检查点文件会占用庞大的磁盘空间,如果不定期更新很快就会过时,若留待日后复用则必须重新训练,因此维持一个近乎无限大的备选模型候选池,其成本将极其高昂。


Thoughts Memo 汉化组译制
感谢主要译者 gemini-3.1-pro,校对 Jarrett Ye
原文:Guardian Angels: LLM Personalization for Productivity and Security · Gwern.net
首次发布于 2025-12-01;最后更新于 2026-06-05。状态:已完成;置信度:可能;重要性:10/10。

专栏:Gwern Branwen


← 返回目录