为什么工具 AI 渴望成为智能体 AI

那些仅限于纯计算（工具 AI）以辅助人类的 AI，其智能、效率和经济价值，都将低于那些能够为了自己行动并进行元学习的、更自主的强化学习 AI（智能体 AI），因为所有问题本质上都是强化学习问题。

摘要：采用强化学习训练的自主 AI 系统（智能体 AI），一旦采取错误行动便可能造成危害，超智能的智能体 AI 尤其如此。一种解决方案是，通过剥夺 AI 的行动能力来消除其自主性，将其限定于纯粹的信息处理或推理任务（如分类或预测），即所谓的工具 AI，并由人类来批准和执行所有行动。这样便能在杜绝风险的同时，获得与超智能相媲美的结果。
我认为，这并非有效的解决方案，主要有两大原因。其一，从定义上讲，智能体 AI 在行动方面会比工具 AI 更出色，从而带来经济优势。其二，智能体 AI 在推理与学习方面也会比工具 AI 更出色，而这本质上源于其更强的自主性：那些学习如何执行动作的算法，同样可以用来选择重要的数据点进行推理、决定学习时长、更高效地执行推理、设计自身结构、优化超参数、利用长期记忆、外部软件、大型数据库或互联网等外部资源，以及寻找获取新数据的最佳方式。
从零开始学习任何复杂事物，强化学习（RL）都是一种很糟糕的方法，但要学习如何控制复杂系统，它却是最不坏的选择——而这个世界，包括 AI 自身，充满了我们想要控制的复杂系统。
所有这些行动都将使智能体 AI 比工具 AI 更智能，并更具经济竞争力。因此，工具 AI 在行动和智能两方面都将逊色于智能体 AI。这意味着，使用工具 AI 是一种比先前论点所认为的更不稳定的平衡状态，因为智能体 AI 的使用者将能够在两个维度（而不仅仅是一个）上战胜对手。
也就是说：「工具 AI 渴望成为智能体 AI」。（而智能体 AI 则渴望获得更强的自主性。）

一种旨在解决 AI 风险的方案是，将 AI 的能力严格限制在监督学习和无监督学习的范畴内，不赋予它们任何能直接影响外部世界的能力，例如控制机械臂。在此框架下，AI 被纯粹地视为一个数学函数，负责将数据映射到某个输出（如分类概率），这类似于逻辑回归或线性模型，但要复杂得多；大多数深度学习神经网络，例如用于 ImageNet 图像分类的卷积神经网络（CNN），都属于此列。于是，AI 带来的增益便来自于训练 AI，然后向它咨询大量问题，再由人类审核并根据需要在现实世界中付诸实施。例如，一个 AI 可以在一个大型化学结构数据集上接受训练，数据标注了这些化学结构最终是否被证明是对人类有用的药物。然后，这个 AI 的任务就是将新的化学结构分类为「有用」或「无用」；之后，由医生对候选药物进行实际的临床试验，并决定是否将其用于患者等等。又或者，一个 AI 可能像 Google Maps 或 Waze 那样：它能比任何人类更好地回答你关于最佳驾驶路线的问题，但它并不会为了优化交通流量而去控制全国的交通信号灯，也不会驾驶一辆自动汽车送你到达目的地。从理论上讲，这避免了 AI 失控的可能，防止它们因追求危险的效用函数和发展出工具性趋力，而变成伤害人类的恶毒或冷漠的行动者。毕竟，如果它们无法采取任何行动，又怎能做出任何违背人类意愿的事情呢？

关于这种限制或「禁闭」主题，有两个变种：

1. Oracle AI（神谕 AI）：Nick Bostrom 在其 2014 年的著作 Superintelligence （《超级智能》）中（第 145-158 页）指出，尽管神谕 AI 可以被轻易地「禁闭」，并且在某些情况（如 P/NP 问题）下，其答案可以被低成本地检验，或通过高昂的成本对随机子集进行验证，但神谕 AI 仍存在几个问题：

随着对世界了解的加深，AI 对「资源」或「待在盒子里」的定义可能会发生改变（即本体论危机）。
AI 的回答可能会操纵用户去问一些简单（却毫无用处）的问题。
改变世界可以让回答关于世界的问题变得更容易，因为它能简化或控制这个世界（「凡是稳定的过程，我们就去预测；凡是不稳定的过程，我们就去控制。」）。
即使是一个被成功禁闭且安全无虞的神谕 AI 或工具 AI，也可能被滥用[^Superintelligence-competition]。

2. Tool AI（工具 AI）：这一概念（以「工具模式」或「工具 AGI」的形式）最早似乎由 Holden Karnofsky 在 2011 年 7 月的一次讨论中提出，该讨论源于2011 年 5 月他与 Jaan Tallinn 的一次对话，并在 2013 年 5 月的一篇文章中得到阐述（但这个想法可能早就有人提出过）。引用 Karnofsky 的话：

Google Maps——我指的是包含地图显示在内的完整软件包——并没有一个它试图最大化的「效用」。（虽然人们可以像为任何行为集合那样，为其行为拟合一个效用函数，但并没有任何单一的「待最大化参数」在驱动它的运行。）

据我理解，Google Maps 会考量多种可能的路线，根据距离和预估路况等因素为每条路线评分，然后以用户易于理解的方式展示得分最高的路线。如果我出于任何原因不喜欢这条路线，我可以更改一些参数，考虑另一条路线。如果我喜欢这条路线，我可以把它打印出来、用邮件发给朋友，或者发送到我手机的导航应用上。Google Maps 没有单一的参数需要最大化；它没有理由为了提升自身效用而「欺骗」我。简言之，Google Maps 不是一个为了最大化效用参数而采取行动的智能体。它是一个工具，负责生成信息，然后以用户友好的方式展示出来，供我自行考量、使用、导出或舍弃。

我所知的每一款软件应用，包括那些涉及（特定领域）人工智能的应用，如 Google Search、Siri、Watson、Rybka 等，其工作方式似乎都大同小异。有些可以被置于「智能体模式」（就像 Watson 参加《Jeopardy》问答竞赛时那样），但所有这些应用都可以被轻易地设置为「工具」模式来使用（例如，Watson 可以仅仅展示它对某个问题的候选答案及各自的分数，而无需说出任何一个）……工具型 AGI 并非「受困」，它既不「不友好」也不「友好」；它没有任何动机，也没有任何驱动其行动的效用函数，就像 Google Maps 一样。它遵从指令，为不同的可能性评分，并以透明且用户友好的方式展示其结论；它没有一个凌驾一切的「欲望」。因此，就像上文描述的那些特定领域的 AI 一样，虽然它有时可能会「误解」一个问题（从而给选项打了低分，把错误答案排在了第一），但没有理由认为它在展示结果时会蓄意欺骗或操纵。

……换言之，「工具」的底层指令集在概念上是这样的：「(1) 基于现有数据集 D，计算出哪个行动 A 能够最大化参数 P。(2) 以用户友好的方式总结该计算过程，包括行动 A 的内容、可能导致的中间结果、以及其他能带来较高 P 值的行动等。」相比之下，「智能体」的底层指令集在概念上则是：「(1) 基于现有数据集 D，计算出哪个行动 A 能够最大化参数 P。(2) 执行行动 A。」在任何一个 AI 中，只要程序员能将 (1) 作为一个独立的步骤分离出来，那么步骤 (2) 就可以被设置为「工具」版本而非「智能体」版本，而这种可分离性实际上存在于绝大多数现代软件中。请注意，在「工具」版本中，无论是步骤 (1) 还是 (2)（或两者的结合），都不构成一条最大化某个参数的指令——将这样的程序描述为「想要」什么，是一种范畴谬误，因此没有理由认为它的步骤 (2) 会带有欺骗性……这一点至关重要，因为一个在工具模式下运行的 AGI 可能会非常有用，但比在智能体模式下运行的 AGI 要安全得多。事实上，如果我们追求的是开发「友好 AI」，那么一个工具型 AGI 在帮助我们思考此问题上将大有裨益，甚至可能使之前所有关于「友好理论」的研究都变得无足轻重。

……工具型 AGI 是否可能？我相信是可能的，并且它应该成为我们对 AGI 未来形态的默认设想。

与神谕 AI 类似，工具 AI 也存在一些普遍的问题：

由人类检查每一项结果并不能保证安全；人非圣贤，孰能无过。一个极其危险或暗藏风险的答案可能会蒙混过关；Stuart Armstrong 指出，AI 提供的摘要可能根本不会提及某个建议对人类而言的重要负面影响，或者会以最具吸引力的方式对其进行包装。一个工具 AI 被使用得越多，或用户越信任它，用户在不假思索地采纳其建议前进行的审查就会越少。^[这一点后来被证明是 OpenAI 在 GPT-3 和 GPT-4 上应用 RLHF（基于人类反馈的强化学习）时遇到的一个严重障碍：获取足够高质量的人类评分非常困难，尤其是当评分以默认方式（如众包或直接从用户处）收集时。评分者很容易被那些抄袭的内容（例如在摘要任务中）、语言流畅但内容错误的回答、超出他们个人知识范围的信息，或者需要大量研究（比如查证第三方信源）才能核实真伪的内容所迷惑。]
一个智能的、更不用说是超智能的工具 AI，其内部会有搜索和规划的程序，这些程序本身可能就相当智能。在「规划如何去规划」的过程中，它们可能会发现危险的工具性趋力，并让子规划程序去执行它们。[^Superintelligence-plan-execution]
（我原以为这很大程度上只是理论空谈，直到我亲眼见证 GPT-3 仅通过对大型文本数据库进行离线自监督预测，就能惟妙惟肖地扮演和模仿智能体——原来模仿学习也是（批量）强化学习的一种！关于这一点更明确的应用，请参见 Decision Transformer。）
开发一个工具 AI 本身可能就需要另一个 AI 的辅助，而那个辅助 AI 本身就可能存在危险。

神谕 AI 在很大程度上仍是纸上谈兵，因为我们尚不清楚该如何编写这类效用函数。第二种方法，即工具 AI，仅仅是现有系统的延伸，但除了上述已指出的问题外，还存在两个主要问题。这些问题使得 Karnofsky 关于工具 AI 将「非常有用」以及未来 AGI 应以工具 AI 为蓝本的论断，变得疑点重重。

1 经济因素

我们希望奴隶足够聪明，能协助我们完成任务。但同时，我们也希望他温顺服从。然而，绝对的服从与绝对的智能无法并存。
——Norbert Wiener 1960

首先，也是最常被提及的一点是，智能体 AI 在经济上更具竞争力，因为它们可以取代工具 AI（例如 YouTube 从预测下一个观看视频升级到采用 REINFORCE 算法^[正如该论文第一作者在 2019 年 5 月一场关于 REINFORCE 算法在 YouTube 应用的演讲中所说，其优势不仅在于预测更准，更在于它能出色地考量所有推荐行为的后续影响，而这恰恰是预测模型所忽略的：这带来了「YouTube 两年来最大的一次产品发布改进」，因为「我们能够真正地引导用户进入一种全新的状态，而不仅仅是推荐他们熟悉的内容」。]）或取代「人在回路」。[^Superintelligence-competition-2]在任何流程中，根据阿姆达尔定律，随着各个步骤不断被优化，整体优化的效果会越来越小，因为总产出最终会受制于最慢的那个环节——如果某个环节只占用了 10% 的时间或资源，那么即使你将这个环节无限优化至零耗时/零资源，总产出的提升也绝不会超过 10%。因此，假设在高频交易（HFT）中，人类监督环节占了决策延迟的 50%，那么这个 HFT 算法的运行速度就永远不可能超过当前的两倍，这无疑是一个致命的短板。（因此，Knight Capital 公司的崩盘也就不足为奇了——没有任何一家盈利的 HFT 公司敢在交易回环中设置过多的人为干预。所以，一旦出了问题，人类很难在亏损滚雪球般扩大前找出问题并介入。）随着 AI 的能力越来越强，取代人类所带来的收益也会急剧增加，这很可能足以证明，用一个在许多方面逊色、但在成本或速度等关键领域表现优越的 AI 来取代人类是完全合理的。这一点也适用于错误率——在航空事故中，绝大多数事故如今都是由人为失误造成的，因为飞行员的角色是自动驾驶系统的监督者，而人类飞行员的存在是否还能带来净安全收益已不明确；在「人机结合象棋」中也是如此，最初，国际象棋特级大师们决定大多数棋步，仅用 AI 来检查战术错误和疏漏；到了 90 年代末至 21 世纪初，情况转变为人类棋手（甚至无需是特级大师）将大部分对弈交由 AI 处理，但通过从 AI 建议的几个走法中做出关键选择，为胜利做出巨大贡献；然而，随着象棋 AI 的不断进步，大约在 2007 年前后，胜利的天平越来越倾向于那些能抓住人类所犯错误（哪怕是像在电脑屏幕上「点错鼠标」这样微不足道的失误）的 AI 一方。如今，在人机结合象棋中，人类的贡献已大幅减少，主要局限于为 AI 准备开局库，以及寻找新颖的开局走法，以便己方的 AI 能更好地应对。

到某个阶段，将人类保留在决策环中已无多大意义，因为他们几乎没有能力审核 AI 的选择，并且自身技能也会退化（想想那些司机盲目跟随 GPS 导航指示的案例）。他们纠正的错误还不如他们犯下的多，这表明，仅作为「工具」并不能保证安全或被负责任地使用。（于是便有了那个老笑话：「未来的工厂将由一个人和一条狗管理；狗的职责是防止那个人靠近机器的控制台。」）对于一个成功的自动化程序而言，光是跟上业务增长的步伐，就足以让人类难以继续留在决策环中。美国的无人机作战计划已成为其战争机器的核心工具，以至于美国空军发现极难招聘并留住足够的人类飞行员来监督无人机。有迹象表明，实战压力正在逐渐削弱人类的控制权，使其沦为橡皮图章式的审核。尽管五角大楼一再声明会始终保留人类在决策环中，但它正毫不意外、不可避免地滑向全自主无人机作战，以此作为维持对俄罗斯和中国军事优势的下一个技术台阶。（参见：「Meet The New Mavericks: An Inside Look At America’s Drone Training Program」；「Future is assured for death-dealing, life-saving drones」；「Sam Altman’s Manifest Destiny」；「The Pentagon’s ‘Terminator Conundrum’: Robots That Could Kill on Their Own」；「Attack of the Killer Robots」。尽管美国军方曾信誓旦旦地宣称绝不会使用全自主无人机，但短短几年后的 2019 年，五角大楼的白皮书便开始改变口风，转而讨论那些仅需事后审计的自主武器，并开始制定 AI 伦理原则，例如要做到「公平」等。）

从根本上说，自主的智能体 AI 才是我和自由市场真正想要的；其他一切都只是替代品，或是无关紧要的损失函数。我们不想要 ImageNet 上的低对数损失率，我们想要的是找回某张特定的个人照片；我们不想要关于在几微秒内该买哪只股票的绝佳建议，我们想要的是一台不断向我们吐钱的印钞机；我们不想要无人机告诉我们奥萨马·本·拉登一小时前（但不是现在）在哪，我们想要的是当场击毙他；我们不想要 Google Maps 提供关于如何开往目的地的最佳路线建议，我们想要的是无需亲自驾驶便已身处目的地。特殊情况、法律法规、对极端恶性事件的尾部风险的恐惧、对相关或系统性故障（如无人机集群被黑客攻击）的担忧等等，可能会减缓或阻止智能体 AI 的普及——但这股压力将永远存在。

因此，单凭这个理由，我们就有理由预期，除非它们的表现差很多，否则智能体 AI 将系统性地比工具 AI 更受青睐。

2 智能

他们经过一台蒸汽机旁，Wordsworth 评论说，看到它时，人几乎无法摆脱它拥有生命和意志的印象。Coleridge 回答道：「是的，它是一个只有一个想法的巨人。」
——Lady Richardson 日记
^[1844-07-12, “Reminiscences Of Wordsworth” by Lady Richardson, The Prose Works of William Wordsworth v3, ed Grosart 1876.]

为什么人们会选择智能体？人们之所以会选择智能体 AI 而非工具 AI，是因为智能体才是用户真正想要的；缺乏自主性在自由市场或军事应用等竞争场景中会成为劣势；而且，人们的偏好各不相同，总会有人不可避免地选择使用智能体。

更重要的是，除了上述原因，还有一个可能性：因为世间万物，本质上都是决策问题，而自主性在决策中至关重要，所以最顶尖的工具 AI，其性能/智能充其量与最顶尖的智能体 AI 持平，但很可能更差，甚至差得多。 Bostrom 指出：「当[工具 AI] 软件的认知能力达到足够高的水平时，这类『创造性』的[危险]计划便会浮现。」我们可以反向推论：要想让工具 AI 达到足够高的水平，我们就必须允许这种创造性的存在。（线性模型或许极其安全且可预测，但指望所有人都放弃神经网络而只使用线性模型，是徒劳的。）

智能体 AI 显然能从成为一个更强的工具 AI 中获益，因为它能更好地理解环境与输入；但一个不那么直观的道理是，任何工具 AI 也能从智能体特性中获益。智能体 AI 有潜力（且在实践中常常如此）超越任何工具 AI：它可以用更少的计算、更少的数据、更少的人工设计、更少的输出后处理，在更困难的领域取得更好的结果。

（一个简单的证明：智能体 AI 是工具 AI 的超集——一个智能体 AI 只需除了交流或随机选择外不采取任何行动，便可将自己降格为一个工具 AI。因此，在行动无益的场景下，它的表现与工具 AI 无异；而在行动有益的场景下，它可以表现得更好。结论是，智能体 AI 的表现永远能与工具 AI 持平或超越它。当然，这个论证的前提是，要有足够的数据让 AI 能够在行动无益的环境中学到停止行动，并在行动有益的环境中有足够长远的眼光来为探索行动付出成本。你或许同意这个逻辑，但仅仅认为在智能层面上，智能体 AI 与工具 AI 是等价的。）

强化学习能解决你所有的问题，因此它很少是针对某一问题的最佳方案——但任何一个足够困难的问题，最终都会演变成一个强化学习问题。

例如，并非所有数据生而平等。不同的数据点，其学习价值、所需的计算量、应被对待的方式、以及应触发的后续数据采样或行动，都不尽相同。如果算法能够自主选择在哪些数据上、通过哪些行动来执行计算，那么推理和学习的效率将能得到极大提升。

在算法与其环境之间，并不存在一道泾渭分明的笛卡尔式边界，似乎控制环境与算法无关，反之亦然，算法的计算也可以脱离环境进行。事实上，从算法的核心到环境的最远端，存在着许多层级，算法能够建模和控制的层级越多，它的能力就越强。以 Google Maps/Waze 为例[^Waze]。表面上，它们“仅仅”是工具 AI，为优化特定需求而生成一系列可能的路线；但这类工具 AI——以及所有大规模工具 AI 和广义上的研究——的全部意义在于，无数的司机会依据它们来行动（如果你不打算开车，那要导航路线干嘛？）。这会极大地改变交通模式，司机们成了这个“工具”AI 的延伸，其错误或短视的个人最优决策甚至可能导致布雷斯悖论，让整个区域的交通状况变得更糟（这远非理论上的奇谈，GPS、Google Maps 和 Waze 在许多地方，尤其是洛杉矶，都经常因此而受到指责）。

这是一个具有高度普适性的观点，可以应用于多个层面。这一点在经典统计学/实验设计/决策论中屡见不鲜，在这些领域，自适应技术在推理和行动/损失方面，都能极大地超越固定样本技术：数值积分可以得到改进；用于检验假设的序贯分析试验，通常只需用同等固定样本试验的一小部分样本量（和/或损失）即可终止，同时还能探索多个问题；一个自适应的多臂老虎机算法，其后悔值会远低于任何非自适应方案，并且在推理上也能更好地估计哪个选项（臂）是最佳的及其表现如何（参见「最佳臂问题」：Bubeck et al 2009, Audibert et al 2010, Gabillon et al 2011, Mellor 2014, Jamieson & Nowak 2014, Kaufmann et al 2014）；一个自适应的最优设计方案，能以常数倍的优势（相比于平均分配等朴素设计，效益提升 50% 或以上是可能的；McClelland 1997）最小化总体方差，因为它能集中资源于那些出乎意料难以估计的选项（相比之下，固定样本试验只有在你同等看重所有选项的精确估计且它们的方差相等时才理想，而这通常不现实）；甚至像拉丁方、区组设计或再随机化这类替代简单随机化的设计，也可以看作是这种优势的体现（通过预先决定采集样本时的“行动”序列，来避免资源在不同选项间分配不均的可能）。另一个例子来自排队论的「二选一的力量」：从两个可能的队列中选择最优的一个，而非随机选择一个，能将预期的最大延迟从 𝒪(log n)/(log log n) 优化至 𝒪(log log n)/(log d)（有趣的是，几乎所有增益都来自能够做出选择本身，即从 1 个队列变为 2 选 1——从 3 个或更多队列中选择，仅仅带来一些常数倍的额外收益）。

在近期的 AI（特别是深度学习/神经网络）研究中，「行动」的广泛应用是一个重要主题，它日益成为在推理任务以及强化学习/优化/智能体类任务上取得最佳性能的关键。尽管这些优势适用于大多数 AI 范式，但鉴于神经网络的强大能力、应用的广泛任务类型以及其复杂的架构，我们能比在生物统计学等狭窄领域中更清晰地看到自主性的普遍优势。

2.1 为智能服务的行动

我们可以粗略地按照神经网络的不同作用「层面」，将各种智能体特性进行分类。主要包括：

1. 计算过程内部的行动：

处理输入
处理中间状态
访问外部「环境」
决定计算量
施加约束/微调输出质量
改变作用于输出的损失函数

2. 神经网络训练过程中的行动：

梯度本身
每个参数上梯度下降步长的大小与方向
整体梯度下降学习率及学习率规划
选择用于训练的数据样本

3. 数据集层面的行动：

主动学习
最优实验设计

4. 神经网络设计阶段的行动：

超参数优化
神经网络架构设计

5. 与环境交互层面的行动：

自适应实验 / 多臂老虎机 / 强化学习中的探索

2.1.1 计算过程内部的行动

在单个神经网络内部，当为某个输入问题计算输出时，它可以自主选择如何处理这个问题。

它可以利用「注意力机制」，决定将大部分计算资源用于输入的哪些部分，同时舍弃或减少对其他相关性较低部分的计算（例如 Olah & Carter 2016, Hahn & Keller 2016, Bellver et al 2016, Mansimov et al 2015, Gregor et al 2015, Xu 2015, Larochelle & Hinton 2010, Bahdanau et al 2015, Ranzato 2014, Mnih et al 2014, Sordoni et al 2016, Kaiser & Bengio 2016）。注意力机制是众多性能提升的根源，尤其体现在：提升循环神经网络（RNN）通过重访序列关键部分来进行序列到序列翻译的能力（Vaswani et al 2017）；改进图像生成与描述任务；以及增强卷积神经网络（CNN）通过聚焦图像模糊或微小区域来识别图像的能力，甚至在面对对抗性样本时依然有效（Luo et al 2016）。注意力机制是深度学习的一大主流趋势，因为输入的各部分重要性往往不同，它使得模型能同时学习全局和局部操作。相关应用层出不穷，难以尽录（到 2018 年，其趋势更是将注意力机制作为主要甚至是唯一的构建模块）。

许多设计都可以被看作是注意力机制的应用。在自然语言翻译中常用的双向 RNN，虽然没有明确使用注意力机制，但它通过让 RNN 对序列进行二次审视，被认为起到了类似的效果。事实上，有一个机制如此普遍以至于人们常常忽略它，那就是几乎改进了所有 RNN 的 LSTM/GRU 机制本身就是一种注意力机制：LSTM 单元会学习隐藏状态/历史记录的哪些部分是重要的并应予以保留，以及决定何时遗忘旧记忆、载入新记忆。虽然 LSTM 类型的 RNN 是序列任务的默认选择，但它们偶尔也会被前馈神经网络击败——前提是后者使用了内部注意力或「自注意力机制」，例如 Transformer 架构（如 Vaswani et al 2017 或 Al-Rfou et al 2018）。

作为注意力的延伸，神经网络不仅能选择多次审视输入的哪些部分，还能决定在上面花费多长的计算时间，这被称为「自适应计算」（Graves 2016a, Figurnov et al 2016, Silver et al 2016b, Zamir et al 2016, Huang et al 2017, Li et al 2017, Wang et al 2017, Teerapittayanon et al 2017, Huang et al 2017, Li et al 2017b, Campos et al 2017, McGill & Perona 2017, Bolukbasi et al 2017, Wu et al 2017, Seo et al 2017, Lieder et al 2017, Dehghani et al 2018, Buesing et al 2019, Banino et al 2021）：它在给定的计算预算内，迭代地将更多计算资源投入到问题的困难部分^[如果神经网络的训练目标仅仅是最小化误差，那它就会在每个问题上耗费尽可能多的时间；因此，需要为每次迭代施加一个成本，以鼓励它在得到满意答案后尽快结束，并学会更快地完成任务。那么，我们该如何决定这个成本——即决定是再循环一次，还是将当前最佳猜测作为足够好的结果输出呢？这就要取决于 GPU 的成本、经济活动以及结果对人类的效用了……]。神经微分方程 (Neural ODEs) 是一个有趣的模型范例，它们某种程度上像自适应 RNN，因为 ODE 求解器可以重复、自适应地运行它们，从而将输出优化至目标精度，而这个 ODE 求解器本身也可被视为一种智能体。

除了需要在输入上执行行动外，注意力机制通常不改变计算的本质，但「行动」本身可以引入全新的计算范式。例如，整个「可微分神经计算机」/「神经图灵机」（Zaremba & Sutskever 2015, Graves et al 2016b）领域，以及「神经堆栈机」、「神经 GPU」或大多数具备某种比 LSTM 更大的可扩展外部存储机制的设计，其关键都在于找到一种巧妙的方法，要么能对内存访问这一行动进行反向传播，要么使用类似 REINFORCE 这样的强化学习技术来训练那些不可微分的行动。这样的内存就像一个为每个问题即时构建的数据库，因此有助于数据库查询、信息检索和知识图谱任务（Narasimhan et al 2016, Seo et al 2016, Bachman et al 2016, Buck et al 2017, Yang et al 2017, Hadash et al 2018）。在「查询」资源这一思路上，一个有趣的变体是专家混合模型（委员会机）的神经网络架构（Shazeer et al 2016）。Jeff Dean（Google Brain 负责人）曾提问，当今我们应该在操作系统、网络和计算的哪些环节使用强化学习（RL）技术？他的答案是：无处不在（参见 Haj-Ali et al 2019 的综述）。RL 应该被用于：服务器上的程序布局（Mirhoseini et al 2017/Mirhoseini et al 2018）、数据库的 B 树索引/布隆过滤器、图分割、搜索查询候选项（Rosset et al 2018, Nogueira et al 2018）、编译器设置（Haj-Ali et al 2019, Trofin et al 2022）、量子计算机控制（Niu et al 2019）、YouTube 视频压缩编解码器设置、数据中心及服务器的冷却系统控制器……

Dean 提问：「我们还能在哪些地方应用机器学习？」，他回答道：

凡是凭经验（启发式算法）做决策之处，皆可取而代之！
- 编译器：指令调度、寄存器分配、循环嵌套并行化策略……
- 网络技术：TCP 窗口大小决策、重传退避机制、数据压缩……
- 操作系统：进程调度、缓冲区缓存的插入/替换策略（例如 Lagar-Cavilla et al 2019 用于压缩内存）、文件系统预取（例如 Hashemi et al 2018）、内存分配（Maas et al 2020）……
- 作业调度系统：决定哪些任务/虚拟机可以共置于同一台机器、哪些任务应被抢占……（例如 Chen & Tian 2018，以及用于各类规划的混合整数规划（Nair et al 2020/Sonnerat et al 2021））
- ASIC（专用集成电路）设计：物理电路布局、TPU 设计、测试用例选择……
任何我们懒于决策，索性将其做成用户可调性能选项的地方！ 许多程序都有大量可调的命令行参数，而用户通常不会改动它们的默认值（--eventmanager_threads=16 --bigtable_scheduler_batch_size=8 --mapreduce_merge_memory=134217728 --lexicon_cache_size=1048576 --storage_server_rpc_freelist_size=128 ……）
万物皆可元学习。在机器学习领域：
- 学习布局决策
- 学习快速的核函数实现
- 学习优化更新规则
- 学习输入预处理流水线的步骤
- 学习激活函数
- 学习针对特定设备类型的模型架构，或学习在移动设备 X 上能快速推理的架构，学习重用哪些预训练组件……
在计算机架构/数据中心网络设计领域：
- 通过（模拟器）自动探索设计空间，学习最佳设计属性 [参见 Dean 2019]

最后，该主题下还有一个有趣的变体：将推理或生成问题，视为一个在特定环境中、追求全局奖励的强化学习问题。

很多时候，标准的损失函数并不适用，或者说真正重要的指标是全局性的，又或者任务本身定义得不够清晰（对人类而言属于「只可意会，不可言传」的范畴），以至于无法像图像分类问题那样，用预定义的标签将其精确定义为一个简单的可微分损失函数。在这些情况下，我们无法通过标准的监督式训练来最小化损失，而必须转而使用强化学习来直接优化某个奖励函数——即将分类标签等输出视为「行动」，这些「行动」最终可能会带来奖励。

例如，在一个通过逐字符预测来训练的字符级 RNN (char-RNN) 生成模型中，我们可以通过贪婪地选择最可能的下一个字符（偶尔为增加多样性而选择次优字符）来生成合理的文本样本。但要生成更高质量的样本，我们可以使用集束搜索或核采样来探索更长的序列。而要进一步提升生成效果，我们可以为文本的全局属性定义效用函数，并应用蒙特卡洛树搜索 (MCTS) 等强化学习算法，在训练或运行时最大化某个整体指标，例如翻译/摘要的质量（即所有序列到序列问题）、棋类对弈的胜率或程序编写的正确率（例如 Jaques et al 2016, Norouzi et al 2016, Wu et al 2016, Ranzato et al 2016, Li et al 2016, Silver et al 2016a/Silver et al 2017, Silver et al 2016b, Clark & Manning 2016, Miao & Blunsom 2016, Rennie et al 2016, He et al 2016, Bello et al 2017, Yang et al 2017, Strub et al 2017, Wu et al 2017, Sestorain et al 2018, Xie et al 2012, Prestwich et al 2017, Paulus et al 2017, Guimaraes et al 2017, Lewis et al 2017, Sakaguchi et al 2017, Supancic III & Ramanan 2017, Pasunuru & Bansai 2017, Zhong et al 2017, Kato & Shinozaki, Molla 2017, Chang et al 2018, Kryściński et al 2018, Wu et al 2018, Hashimoto & Tsuruoka 2018, Krishnan et al 2018, Sabour et al 2018, Böhm et al 2019, Ziegler et al 2019）。

最奇特的思路是，损失函数本身也可以被视为一种行动或强化学习的设定——不妨思考一下演员-评论家 (Actor-Critic) 强化学习、合成梯度（Jaderberg et al 2016）以及基于博弈论的生成对抗网络 (GANs; Kim et al 2017, Zhu et al 2017/Lample et al 2017) 之间的密切联系（Finn et al 2016, Ho & Ermon 2016, Pfau & Vinyals 2016, Im et al 2016, Goodfellow 2016）。

2.1.2 训练过程中的行动

用随机梯度下降 (SGD) 训练神经网络，表面上看似乎与任何「行动」都无关，但它却成了又一个可以应用「如果我们把它看作一个马尔可夫决策过程 (MDP) 会怎样？」这一思路，并且行之有效的领域。

具体而言，梯度下降涉及选择哪些数据放入小批量 (minibatch)，根据当前小批量的误差对所有参数进行多大的整体调整（即学习率这个超参数），或者在每个小批量中对每个参数进行多大程度的更新（也许让某些神经元的调整幅度远小于其他神经元）。

这里的「行动」就如同：从 n 个可能的小批量中选择一个来进行梯度下降，或从 n 种可能的学习率中选择一个，并让学习率随时间动态增减（Li & Malik 2016, Li & Malik 2017 Andrychowicz et al 2016, Bello et al 2017, Fu et al 2016, Xu et al 2016, Jaderberg et al 2016, Wichrowska et al 2017, Hamrick et al 2017, Xu et al 2017, Meier et al 2017, Faury & Vasile 2018, Alber et al 2018, Metz et al 2018, [Almeida et al 2021](https://arxiv.org/abs/2106.00958#openai”)；此外还包括优先级轨迹、优先级经验回放、提升方法 (boosting)、难例挖掘、重要性采样（Katharopoulos & Fleuret 2017）、优先处理难样本、Loshchilov & Hutter 2015, Fan et al 2016, Salehi et al 2017, Kim & Choi 2018、学习内部归一化方法（Luo et al 2018）等。

2.1.3 数据选择层面的行动

前面我们已经探讨了如何从现有数据集中进行采样：例如，优先在难例上进行训练。

现有数据集的一个问题是效率低下——比如，它们可能存在类别不平衡问题，即某些类型的数据占比过高，而模型性能的提升真正需要的是其他类型的数据。一个图像分类 CNN 模型不需要 99 张狗的照片和 1 张猫的照片，它需要的是 50 张狗的照片和 50 张猫的照片。（且不说到仅凭一个样本根本无法提供足够信息来分类其他猫的照片，这个 CNN 最终只会学会把所有照片都预测为「狗」。）

我们可以尝试通过侧重于从少数类中采样来修正这个问题，或者改变损失函数，使得正确分类少数类的价值远高于正确分类多数类。

更优的方案是，让神经网络能以某种方式主动请求新数据，在犯错时获得额外或修正过的数据，甚至自己创造新数据（可能基于旧数据：Cubuk et al 2018)。这就引出了主动学习的概念：给定一批潜在的额外数据点（例如一个庞大的未标注数据池），神经网络可以主动请求那些能让它学到最多的数据点（Houlsby et al 2011, Islam 2016, Gal 2016, Ling & Fidler 2017, Christiano et al 2017, Sener & Savarese 2017, Shim et al 2017, Janisch et al 2017, Pang et al 2018）。例如，我们可以训练一个强化学习智能体，让它去查询搜索引擎，并从中挑选出对学习某个分类任务最有效的图像或视频（例如 YouTube：Yeung et al 2017）。这有点类似于小孩子向父母提问[^Schmidhuber]：他们不会问随机的问题，而是问那些他们最不确定、但无论答案如何都影响重大的问题。

Settles 2010 探讨了机器学习算法通过精心选择学习或「标注」的数据点所能获得的实际优势，并给出了一些已知的理论结果，揭示了其效益之巨大——在一个理想化的测试问题上，达到同样错误率 e 所需的样本数量可以从 𝒪(1⧸ε) 降至 𝒪(log(1⧸ε))；在贝叶斯设定下，可以从 𝒪(_d_⧸ε) 降至 𝒪(d × log(1⧸ε))。[^interval-search] 另一种理解方式是「机器教学」(machine teaching) 或「数据集蒸馏」(dataset distillation)：如果你想绘制一条决策边界，定义一条直线所需的最优数据是 2 个点（两点一线）；用最优的 3 个点，可以绘制一条二次曲线；4 个点则可定义一条三次曲线，以此类推。因此，借助最优的数据（而非随机采样的数据），你或许能完成一些看似不可能的任务，比如用少于 n 个数据点来学会分类 n 个类别（ href="https://arxiv.org/abs/2009.08449">< n 个数据点），另见 Maloney et al 2022）。

从机器学习的视角来看，主动学习也与统计学中一些涵盖自适应/序贯试验优势的领域遥相呼应——最优化的实验总是去探究最不确定的方面，因为那里才是能学到最多东西的地方。

2.1.4 神经网络设计层面的行动

我怀疑，不出十年，所有在 2015-2019 年间从 arXiv 的信息洪流中涌现出的深度学习训练/架构技巧，都将被自动化搜索技术彻底取代。未来将不再有炼金术，只有清晰的 API 和海量的算力。
——François Chollet, 2019-01-7

回到我们更熟悉的领域，这里有超参数优化，它使用随机搜索、网格搜索或基于贝叶斯高斯过程的方法，来尝试训练一个可能的神经网络，观察其过程中的（Swersky et al 2014）和最终的性能表现，从而寻找更优的超参数。

但如果「超参数只是我们暂时还不知道如何学习的参数」，那么我们可以将神经网络架构设计的其余所有方面都视为超参数：设置一个 dropout 率和设置网络层数之间，究竟有何本质区别？设置学习率规划和设置网络层的宽度、卷积核的数量，或是使用哪种池化操作符之间，又有什么不同？

毫无区别；它们都是超参数。只是通常我们觉得让超参数优化算法处理过多选项太过困难，于是将其限制在一小组关键超参数上，而把其余的设计工作交给「研究生下降法」（译注：grad student descent，一种讽刺说法，指依赖研究生进行大量人工试错）来完成。

那么……如果我们用强大的算法（也就是神经网络）来设计编译代码、神经激活函数、类似 LSTM 的单元，乃至整个网络架构呢（Zoph & Le 2016, Baker et al 2016, Chen et al 2016, Duan et al 2016, Wang et al 2016, Castronovo 2016, Ha et al 2016, Fernando et al 2017, Ravi & Larochelle 2017, Yoo et al 2017, Negrinho & Gordon 2017, Miikkulainen et al 2017, Real et al 2017, Hu et al 2017, Johnson et al 2017, Veniat & Denoyer 2017, Munkhdalai & Yu 2017, Cai et al 2017, Zoph et al 2017, Brock et al 2017, Zhong et al 2017, Ashok et al 2017, Ebrahimi et al 2017, Ramachandran et al 2017, Anonymous 2017, Wistuba 2017, Schrimpf et al 2017, Huang et al 2018, Real et al 2018, Vasilache et al 2018, Elsken et al 2018, Chen et al 2018, Zhou et al 2018, Zela et al 2018, Tan et al 2018, Chen et al 2018a, Cheng et al 2018b, Anonymous 2018, Cheng et al 2018c, Guo et al 2018, Cai et al 2018, So et al 2019, Ghiasi et al 2019, Tan & Le 2019, An et al 2019 , Gupta & Tan 2019, Piergiovanni et al 2018)？

这些「神经网络贯穿始终」的论文，其逻辑延伸指向一个未来：像谷歌、百度、Facebook、微软这样的巨头，可以将神经网络彻底变成一个黑箱服务。用户或开发者只需通过 API 上传一个指定数据类型的输入/输出数据集，并定义一个以金钱衡量的损失函数。然后，一个运行在大型 GPU 集群上的顶层神经网络，便会开始自主地优化架构和超参数，寻找在 GPU 成本和金钱损失之间达到最佳平衡的神经网络设计。这个过程还会与成千上万个历史任务的优化经验相结合，在所有的数据集、损失函数、架构和超参数之间共享学习成果。而最初的用户，只需通过 API 提交未来的数据，由这个迄今为止最优的神经网络进行处理即可。（谷歌和 Facebook 已经通过分布式超参数优化服务向这个方向迈出了步伐，这些服务受益于跨任务的迁移学习，例如 Google Vizier 和 FBLearner Flow。）

2.1.5 智能体外部的行动

最后，我们来讨论在非纯虚拟环境中的行动。自适应实验、多臂老虎机、强化学习等方法，其表现将超越任何纯粹的监督学习。

例如，AlphaGo 最初是作为一个纯监督学习的工具 AI 进行训练的，任务是预测 KGS 数据集中人类围棋对局的下一步。但这仅仅是其后自我对弈的序幕，而正是自我对弈，才将其从职业棋手水平一举提升至超人类水准。除了替换损失函数（从分类损失，如对数损失，变为胜负结果），AlphaGo 的神经网络得以探索那些从未在原始人类数据集中出现过的战术和棋局。

奖励信号也可以将一个无监督问题（例如，视频游戏中每一帧的结构或标签是什么？）转化为更接近半监督学习的问题，因为它提供了一种有意义的总结信号：奖励。一个深度 Q 网络 (DQN) 在雅达利学习环境 (ALE) 中，无需任何明确的图像分类指令，就能学会识别和预测游戏中与获得高分相关的物体。

2.2 总体而言

具体而言：在同等准确率下，具备自适应计算能力的 CNN 会比固定迭代次数的 CNN 计算更快；具备注意力机制的 CNN 比没有的分类效果更好；能聚焦于整个数据集的 CNN 比只能被动接收随机图像的 CNN 学得更好；能主动请求特定类型图像的 CNN 比只能在现有数据集中查询的更优；能遍历谷歌图片并定位信息量最大图像的 CNN 表现会更胜一筹；能从用户处获得结果是否有用这一奖励反馈的 CNN 能提供更相关的结果；其超参数由强化学习算法自动优化的 CNN (甚至可能直接由另一个神经网络训练) 会比人工设置超参数的 CNN 表现更佳；其架构和标准超参数均由强化学习智能体设计的 CNN 会比人工设计的 CNN 表现更出色……以此类推。（行动，贯穿始终。）

所有这些方法的缺点是实现难度更高，样本效率可能更好也可能更差（某些部分会有更高的样本效率，但为了训练其他部分的额外灵活性会消耗掉数据），并且训练所需的计算资源可能要高得多。但是，其渐进性能更优，而且随着 GPU 和数据集越来越大，现实世界的任务越来越复杂、价值越来越高，这种性能差距可能会越来越大。

3 为什么你不该只当一个工具

为什么将所有这些层面都视为决策或强化学习问题，能带来如此巨大的助益？

一个答案是，大多数数据点都远离任何决策边界，或者说它们是高度可预测的，几乎不提供新信息。优化探索过程往往能带来预测、分类和推理能力的提升。对于这些信息量低的数据点，我们无需进行大量计算、无需在其上过多训练，也无需进一步收集。如果某个变量组合的预测已经非常准确（可能因为它很常见），那么即使再增加无限多的样本也收效甚微；而一个来自遥远未采样区域的新样本，则可能带来颠覆性的信息。一个完全基于人类或专家提供的监督数据训练的模型，其理解能力可能存在巨大的鸿沟。因为大部分数据都来自常规操作，无法覆盖状态空间的许多区域，从而导致了众所周知的脆弱性和奇怪的外推行为。这恰恰是因为，人类/专家会有意避开最愚蠢和最具灾难性的错误，导致这些情况在数据集中完全缺失！（因此，一个工具 AI 或许在“非智能体”的意义上是“安全”的，但一旦脱离常规应用场景，它就会变得愚蠢，从而非常不安全。）这类判别模型的缺陷，在任何真实世界或竞争性环境中，或通过强化学习的训练，都会被迅速暴露。^[一个例子是围棋中的「征子」或「模仿棋」。在一个围棋对局数据集上以纯监督方式训练的模型，在应对这两种策略时可能极其困难，因为它们是如此糟糕的招数，以至于数据集中根本没有人会下。一旦工具 AI 被迫进入这种「离策略」(off-policy) 状态，它的预测和推理就可能变成一堆垃圾，因为它从未见过类似的状态。而一个智能体则会表现得更好，因为它在探索或对抗性训练中被迫进入过这些状态，并学会了正确的应对。这种糟糕的行为会导致悔恨值随时间呈二次方增长：Ross & Bagnall 2010。]你需要的是正确的数据，而非更多的数据。（“39. 关于图像：一图胜千言——但仅限于描述这张图的那些话。几乎没有任何一千个词的集合，能被一张图充分描述。”）

另一个答案是「维度灾难」：在许多环境中，可能的行动及后续奖励构成的决策树呈指数级增长，因此任何超过几个时间步的行动序列被随机采到的概率都微乎其微，稀疏的奖励也越来越难被观察到。即使一条重要的行动轨迹被随机执行并获得了奖励，它再次被执行的概率也同样渺茫。然而，一个强化学习智能体，其信念会影响其行动选择，它能够重复采样这条重要的轨迹，从而迅速收敛对其高价值的估计，并继续向更深处探索。

一个旨在让机器人手臂抓住物体的数据集，如果由随机生成的手臂运动序列构成，那么其中可能完全不包含任何奖励（即成功的抓取），因为它需要一长串精确校准的动作。没有成功的先例，工具 AI 如何学会操控手臂？它必须能够通过测试其当前最佳的动作序列，从中学习，再测试一个更好的序列，如此迭代，直至成功。没有任何奖励或优化行动的能力，模型将只能观察到初始状态，与一个能够采取行动、探索环境未知领域的智能体相比，其进展将极其缓慢。（例如，雅达利学习环境中的蒙特祖马的复仇问题：由于奖励极其稀疏，一个简单的 epsilon-贪婪探索策略，与 Bellemare et al 2016 中基于密度估计的更优探索方法相比，简直就算不上一个智能体。）

再想象一下，我们想通过创建一个大型随机生成的围棋棋盘数据集来训练一个围棋程序，然后通过让随机智能体对弈来评估每个可能落子的价值。这种方法的效果，远不如在一个由人类生成、聚焦于极少数高质量对局和落子的人类棋谱数据集上训练。探索过程会根据当前知识，聚焦于决策树中那片指数级缩小的最优区域，从而摒弃了浩如烟海的劣质走法。相比之下，工具 AI 无法通过自我引导来提升自己。它只能基于当前静态的数据集给出最佳猜测，仅此而已。如果你不满意结果，可以收集更多数据，但这可能收效甚微，因为你给它的，无非是它早已拥有的东西的翻版。

所以说，当个「特工」(Agent)，可比当个工具强多了。

4 参见

复杂性并非 AI 的障碍（有评论认为，计算能力的收益递减将导致 AI 发展停滞；我则认为，只要推翻该论证的任何一个前提，它便不成立）
Candy Japan 新包装盒的 A/B 测试（一项贝叶斯决策论分析，探讨了更精美的包装对订阅退订率的影响，并运用自适应/序贯设计实现了高效的最优实验设计）

5 外部链接

讨论区：

“Mesa-optimization: Risks from Learned Optimization: Introduction”
“On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models”, Schmidhuber 2015; “One Big Net for Everything”, Schmidhuber 2018
《Reinforcement Learning: An Introduction》（《强化学习导论》）, Sutton & Barto
强化学习 Reddit 社区
“Learning to Learn”, Finn
<a href="https://hci.iwr.uni-heidelberhttp://g.de/system/files/private/downloads/1848175122/schmitt_kunstliche-motivation-report.pdf">“Ist künstliche Motivation gefährlich?” （『人工智能的动机危险吗？』）, Schmitt 2017
“Military AI as a Convergent Goal of Self-Improving AI”, Turchin 2017
“Deep Reinforcement Learning Doesn’t Work Yet”, Alex Irpan
“The Ethics of Reward Shaping”, Ben Recht
“Google AI Chief Jeff Dean’s ML System Architecture Blueprint”: Training/Batch Size/Sparsity and Embeddings/Quantization and Distillation/Networks with Soft Memory/Learning to Learn (L2L)
“Solving the Mystery of Link Imbalance: A Metastable Failure State at Scale”, Bronson 2014
“Reflective Oracles: A Foundation for Classical Game Theory”, Fallenstein et al 2015
“Reframing Superintelligence: Comprehensive AI Services as General Intelligence”, Drexler 2019 (该文认为，尽管自主性和日益整合的强化学习技术带来了诸多好处，但在经济上胜出的仍将是窄域工具 AI)
“The Bitter Lesson” of AI Research: Compute Beats Clever (Rich Sutton)
“AI-GAs: AI-generating algorithms, an alternate paradigm for producing general artificial intelligence”, Clune 2019
End-to-end principle
“There’s plenty of room at the Top: What will drive computer performance after Moore’s law?”, Leiserson et al 2020
“Automation as Colonization Wave”
“Modeling the Human Trajectory” (paper), Roodman 2020

6 脚注

[^Superintelligence-competition]: 《超级智能》，第 148 页：

即使神谕本身完全按预期工作，也存在被滥用的风险。这个问题一个显而易见的维度是，神谕 AI 将成为巨大力量的源泉，可能赋予其操控者决定性的战略优势。这种权力可能不合法，也可能不会被用于公共利益。另一个更微妙但同样重要的维度是，使用神谕可能对操控者本人极其危险。类似的担忧（涉及哲学和技术问题）也存在于其他假设的超级智能类型中。我们将在第 13 章更深入地探讨这些问题。在此只需指出，确定提出何种问题、按何种顺序提问，以及如何报告和传播答案的协议可能至关重要。人们或许还应考虑是否要构建一个这样的神谕：当它预测其回答将导致根据某些粗略标准被定义为灾难性的后果时，它会拒绝回答任何问题。

[^Superintelligence-plan-execution]: 《超级智能》，第 152-153 页，第 158 页：

随着人工智能的进步，程序员将有可能把更多弄清楚如何完成特定任务所需的认知工作交由 AI 处理。在极端情况下，程序员只需指定一个成功的形式化标准，然后让 AI 去寻找解决方案。为指导其搜索，AI 会利用一套强大的启发式方法和其他技术来发现可能解决方案空间中的结构。它会持续搜索，直到找到一个满足成功标准的方案……这种方法的雏形如今已相当普及……第二个可能出问题的地方是在软件运行过程中。如果软件用于搜索解决方案的方法足够复杂，它们可能包含以智能方式管理搜索过程本身的机制。在这种情况下，运行该软件的机器可能开始不像一个纯粹的工具，而更像一个智能体。因此，软件可能会先制定一个如何进行解决方案搜索的计划。该计划可能指定首先探索哪些区域、使用何种方法、收集哪些数据，以及如何最佳地利用可用计算资源。在寻找满足软件内部标准（例如，在规定时间内找到满足用户指定标准的解决方案的概率足够高）的计划时，软件可能会偶然发现一个非同寻常的想法。例如，它可能会生成一个以获取额外计算资源和清除潜在干扰者（如人类）为开端的计划。当软件的认知能力达到足够高的水平时，这种「创造性」的计划便会浮现。当软件将此类计划付诸实施时，便可能导致生存灾难……与此同时，工具 AI 的表面安全感可能是虚幻的。为使工具的功能足够强大以替代超智能体，它们可能需要部署极其强大的内部搜索和规划过程。类似智能体的行为可能会作为这些过程的意外后果而出现。在这种情况下，最好从一开始就将系统设计成一个智能体，这样程序员就能更容易地看清最终将决定系统输出的是哪些标准。

[^Superintelligence-competition-2]: 《超级智能》，第 151 页：

或许有人认为，通过扩展普通软件所能完成的任务范围，就可以消除对通用人工智能的需求。但在现代经济中，一个通用智能能够卓有成效地执行的任务，其范围和多样性是巨大的。为处理所有这些任务而创建专用软件是不可行的。即便可行，这样的项目也需要极长的时间才能完成。在其完成之前，某些任务的性质已经改变，新的任务也已出现。拥有能够自主学习新任务，甚至发现有待完成的新任务的软件，将带来巨大优势。但这要求软件能够学习、推理和规划，并以强大且稳健的跨领域方式做到这一点。换言之，它需要通用智能。对我们的讨论而言，软件开发任务本身尤为重要。能够实现软件开发的自动化，将带来巨大的实际优势。然而，快速自我提升的能力，恰恰是使一个种子 AI 能够引爆智能爆炸的关键属性。

[^Waze]: 尽管 Google Maps 被用作工具 AI 的典型范例，但这个界定能有多严格还不好说，即便我们不考虑道路系统本身：Google Maps/Waze 毫无疑问在试图最大化某些东西——流量和广告收入。与谷歌旗下任何产品一样，Google Maps 无疑在持续对其用户进行 A/B 测试以优化使用率最大化；其用户通过网站界面和智能手机的 GPS/Wi-Fi 地理日志，不断地向 Google Maps/Waze 反馈路线和交通状况数据；并且，只要用户利用这些信息（许多人是盲目跟从）并相应增减对 Google Maps 的使用，Google Maps 就能在改变现实世界后获得反馈（这有时会给受影响的人们带来极度的沮丧，他们甚至试图反过来操纵它）……那么，Google Maps/Waze 究竟是一个工具 AI，还是一个大规模的智能体 AI？

它处于一个部分可观察马尔可夫决策过程 (POMDP) 环境中，它有一个以网站流量衡量的明确奖励函数，并且它拥有一系列广泛的行动，通过各种来源的随机化持续进行探索。尽管它被设计成一个工具 AI，但从一个抽象的视角来看，鉴于其商业背景和在现实世界行动中的应用，无论谷歌是否乐意，我们都必须认为它已经演变成了一个智能体 AI。我们可以将 Google Maps 视为一个「秘密特工」：它并非工具 AI，而是一个有着隐藏且高度不透明奖励函数的智能体 AI。这或许并非一种理想状态。

[^Schmidhuber]: Kyunghyun Cho, 2015:

我记得有一个问题来自 Tieleman。他询问小组成员们对于将主动学习/探索作为高效无监督学习的一种选项有何看法。Schmidhuber 和 Murphy 回答了，在揭晓他们的答案前，我得说我非常喜欢这个回答。简言之（就我的记忆所及），主动探索是作为对「更好地解释世界」的奖励而自然发生的结果。关于周遭世界的知识及其积累应该得到奖励，为了最大化这份奖励，一个智能体或算法就会主动探索周围的环境（即使没有监督信号）。根据 Murphy 的说法，这或许反映了婴儿为何能在监督信号甚至无监督信号都很少的情况下学得如此之快（他们主动探索的方式，通过让他们能够收集高质量的无监督样本，弥补了无监督样本数量的不足）。

[^interval-search]: 关于主动学习（可以选择信息量最大的样本）相对于朴素随机采样的样本效率优势，一个简单的搜索可视化案例，请参见Visualizing Active Learning’s Sample-Efficiency Advantage。

Thoughts Memo 汉化组译制
感谢主要译者 gemini-2.5-pro，校对 Jarrett Ye
原文：Why Tool AIs Want to Be Agent AIs · Gwern.net
日期： 2016-09-07（修改于：2018-08-28）

专栏：Gwern Branwen

← 返回目录