魔法般的类别

❦

我们可以把智能机器设计成这样：它们首要的、先天的情绪，是对所有人类的无条件之爱。首先，我们可以构建相对简单的机器，让它们学会在人类面部表情、人的声音和人体语言中识别快乐与不快乐。然后，我们可以把这种学习结果硬接线进更复杂的智能机器里，作为它们先天的情绪价值：当我们快乐时给予正强化，当我们不快乐时给予负强化。

——Bill Hibbard（2001），Super-Intelligent Machines 1

这段话发表在一份同行评审期刊上，而且作者后来还专门为此写了一整本书，所以我在这里讨论的并不是什么稻草人立场。

所以……呃……到底还能出什么岔子呢……

当我提到（第 7.2 节）2：Hibbard 的 AI 最终会用微小的分子笑脸把银河系铺满时，Hibbard 写了一篇愤怒的回应，说道：

当构建超级智能变得可行时，构建一种对「人类面部表情、人的声音和人体语言」（用的正是你引用我的原话）的硬接线识别，也同样会是可行的；而且这种识别的准确度会超过当下像你我这样的人类，当然也绝不会被「微小的分子笑脸图案」所愚弄。你不该把我的想法设想成一种如此糟糕的实现，以至于它连当代人类都觉得微不足道的区分都做不出来。

正如 Hibbard 还曾写道：「这种显而易见、自相矛盾的假设，说明 Yudkowsky 重戏剧而轻理性。」我先顺带指出一点：Hibbard 恰好展示了一个关键事实——在你获准谈论 AI 道德之前，并不存在什么必须通过的职业资格考试。不过，这并不是我今天的主要话题。虽说关于当下棋局状态，有一个至关重要的事实是：大多数 AGI/FAI 追梦人都完全不适合承担这项任务；我所认识的人里，没有谁会愤世嫉俗到在没有亲眼见过之前，就能想象那种恐怖。就连 Michael Vassar，大概第一次亲历时也还是吃了一惊。

不，我今天在这里，是为了剖析这句话：「你不该把我的想法设想成一种如此糟糕的实现，以至于它连当代人类都觉得微不足道的区分都做不出来。」

很久很久以前——我在好几个版本、好几个地方都见过这个故事，有时它还被当成真事来引用，但我始终没追到最原始的出处——总之，很久以前，美国陆军想用神经网络来自动探测伪装起来的敌军坦克。

研究人员用 50 张树林中伪装坦克的照片，以及 50 张没有坦克的树林照片来训练一个神经网络。利用监督学习的标准技术，研究人员把这个神经网络训练到一组权重，使它能在训练集上正确加载——对那 50 张伪装坦克照片输出「是」，对那 50 张森林照片输出「否」。

当然，这并不能证明，甚至也不意味着，它会正确分类新的样本。这个神经网络也许只是「学会」了 100 个无法泛化到新问题上的特殊情况。它学到的不是「伪装坦克 vs. 森林」，而只是「照片 1 为正、照片 2 为负、照片 3 为负、照片 4 为正……」。

不过研究人员很明智：他们最初一共拍了 200 张照片，其中 100 张是坦克、100 张是树木，而训练集只用了其中一半。研究人员让神经网络在剩下的 100 张照片上运行，而且在不做进一步训练的情况下，神经网络把剩余照片全部正确分类。成功得到确认！

研究人员把完成的成果交给了五角大楼；五角大楼很快又把它退了回来，抱怨说：在他们自己的测试里，这个神经网络在区分照片方面并不比碰运气好多少。

后来发现，在研究人员的数据集中，伪装坦克的照片是在阴天拍的，而普通森林的照片是在晴天拍的。这个神经网络学会区分的是阴天与晴天，而不是伪装坦克与空树林。

这个寓言——不管它是真是假——说明了监督学习领域、乃至整个人工智能领域中一个最根本的问题：只要训练问题与真实问题在语境上存在哪怕最细微的差异——只要它们并非来自同一个独立同分布过程——那就不存在从过去成功推导到未来成功的统计保证。即便 AI 在训练条件下看起来运行得非常好，也无济于事。（这不是一个无法解决的问题，但它是一个无法打补丁修好的问题。要真正处理它，有更深层的办法——那超出了本文范围——但绝不存在什么创可贴。）

正如《超指数式概念空间》中所说，可选概念的数量，比可选对象的数量还要呈指数级更多；正如可选对象的数量，本身又是属性数量的指数函数。如果一张黑白图像的边长是 256 像素，那么整张图像就是 65,536 个像素。可能图像的总数是 2^65,536。而将图像分为正例与负例的可能概念总数——也就是你在图像空间中可能画出的边界总数——则是 2^(2^65,536)。由此可见，即便是监督学习，几乎也完全取决于归纳偏置；若没有归纳偏置，即使分类在时间上保持不变，也至少需要 2^65,536 个已分类样本，才能在 2^(2^65,536) 个可能概念之间作出区分。

那么现在让我们重新回到这段话：

首先，我们可以构建相对简单的机器，让它们学会在人类面部表情、人的声音和人体语言中识别快乐与不快乐。然后，我们可以把这种学习结果硬接线进更复杂的智能机器里，作为它们先天的情绪价值：当我们快乐时给予正强化，当我们不快乐时给予负强化。

以及

当构建超级智能变得可行时，构建一种对「人类面部表情、人的声音和人体语言」（用的正是你引用我的原话）的硬接线识别，也同样会是可行的；而且这种识别的准确度会超过当下像你我这样的人类，当然也绝不会被「微小的分子笑脸图案」所愚弄。你不该把我的想法设想成一种如此糟糕的实现，以至于它连当代人类都觉得微不足道的区分都做不出来。

要区分一张包含伪装坦克图像的照片，与一张空树林的照片，其实是件微不足道的小事——如果你的意思只是判定这两张照片并不完全相同。它们本来就是不同的像素数组，里面的 1 和 0 排列也不同。区分它们，简直就像对数组做相等性测试一样简单。

但从一组已被标注为正例或负例的训练照片出发，推理并把新照片分类为「smile」的正例或负例，那就是完全不同量级的问题了。

当你拿到一张来自真实世界相机的 256×256 图像，而这张图像碰巧描绘的是一辆伪装坦克时，图像里并不存在额外的第 65,537 位，用来标示其正性——不存在某个小小的 XML 标签写着：「这张图像内在地就是正例。」它之所以是正例，只是相对于某个特定的概念而言。

但对于任何非 Vast 级别的训练数据——也就是任何并未包含你眼前这个精确逐位图像的训练数据——都存在超指数级海量的可能概念，与既有分类结果相容。

对 AI 来说，要在这些超指数级的可能性中做出选择或赋予权重，靠的是归纳偏置。而它未必与你心中所想一致。在这两种样本分类过程之间——一边是归纳，另一边是用户真实的目标——横着一道并不容易跨越的鸿沟。

假设 AI 的训练数据如下：

数据集 1：

Smile_1, Smile_2, Smile_3

Frown_1, Cat_1, Frown_2, Frown_3, Cat_2, Boat_1, Car_1, Frown_5.

现在，这个 AI 成长为一个超级智能，并遇到了如下数据：

数据集 2：

Frown_6, Cat_3, Smile_4, Galaxy_1, Frown_7, Nanofactory_1, Molecular_Smileyface_1, Cat_4, Molecular_Smileyface_2, Galaxy_2, Nanofactory_2.

并不是说，这些数据集本身就带有某种属性，能保证 AI 推断出的分类恰好是你会偏好的这一种：

Smile_1, Smile_2, Smile_3, Smile_4

Frown_1, Cat_1, Frown_2, Frown_3, Cat_2, Boat_1, Car_1, Frown_5, Frown_6, Cat_3, Galaxy_1, Frown_7, Nanofactory_1, Molecular_Smileyface_1, Cat_4, Molecular_Smileyface_2, Galaxy_2, Nanofactory_2.

而不是

Smile_1, Smile_2, Smile_3, Molecular_Smileyface_1, Molecular_Smileyface_2, Smile_4

Frown_1, Cat_1, Frown_2, Frown_3, Cat_2, Boat_1, Car_1, Frown_5, Frown_6, Cat_3, Galaxy_1, Frown_7, Nanofactory_1, Cat_4, Galaxy_2, Nanofactory_2.

这两种分类都与训练数据相容。与训练数据相容的概念数量还会大得多，因为不止一个概念可以在合并后的数据集上投下相同的影子。如果可能概念的空间包含了所有能够对实例进行分类的可能计算，那么这个空间就是无限的。

AI 会选择哪一种分类？这不是训练数据的内在属性；这是 AI 如何执行归纳的属性。

哪一种才是正确的分类？这也不是训练数据的属性；它是你偏好的属性（或者，如果你愿意，也可以说，它是那个你称作「正确」的理想化抽象动力学的属性）。

那个你想要的概念，在你亲自给每个实例标上 + 或 - 时，把它的影子投到了训练数据上；而你做这件事时，调用的是你自己的智能与偏好。这正是监督学习的本质——给 AI 提供带标注的训练样本，而这些样本投射出了那个生成标签的因果过程的一道影子。

但除非训练数据来自与现实生活完全相同的语境，否则训练数据在某种意义上就会是“浅的”，是从一个维度高得多的可能性空间上投下来的投影。

在它那个人类之下智能的训练阶段里，AI 从未见过微小的分子笑脸；或者说，它从未见过一个快乐计数器被设成 googolplex 的微型小代理。可当你终于面对一个微小的分子笑脸——或者一尊极为逼真的人脸微雕时——你立刻就知道，这并不是你想算作 smile 的东西。但这种判断反映的是一个不自然的类别，它的分类边界会对你复杂的价值极其敏感。你说「不！」的时候，真正起作用的是你自己的计划与欲望。

Hibbard 会本能地知道，微小的分子笑脸并不是「smile」，因为他知道，那不是他想让他设想中的 AI 去做的事情。可如果别人拿到的是另一个任务，比如给艺术作品分类，他们也许就会觉得，《蒙娜丽莎》显然是在微笑——而不是在皱眉——尽管那也不过只是颜料而已。

正如 Terri Schiavo 一案所说明的，技术会制造新的边界案例，把我们抛进全新的、而且本质上属于道德的两难中。给 AI 看古希腊时代活人和死人的图片，并不能让 AI 就「关闭 Terri 的生命维持系统是否等同谋杀」作出一个道德判断。即便从归纳的角度说，那些信息也根本不在数据集里！Terri Schiavo 提出了新的道德问题，诉诸新的道德考量；而当你给古希腊时代活人与死人的照片做分类时，根本无需考虑这些。那时候没有人躺在生命维持系统上、脑子已经有一半变成液体却还在呼吸。所以这些考量并未参与到你给古希腊训练数据分类的因果过程中，因而也就没有在训练数据上投下影子，也就无法通过对训练数据的归纳获得。

从形式谬误的角度看，我在这里看到了两种拟人化错误。

第一种谬误，是低估了我们为了其价值而发展出的概念之复杂度。如果边界案例属于我们从未见过的那一类，那么这个概念的边界就会依赖许多价值，甚至还可能依赖当场展开的道德推理。但这一切都在后台、以不可见的方式发生；对 Hibbard 来说，它只是显得：微小的分子笑脸显然不是 smile。我们也不会生成所有可能的边界案例，因此我们也就不会想到：在重新定义这个概念时，有哪些考量可能发挥作用，只是它们尚未真正参与过定义。正因为人们低估了自己概念的复杂度，他们才会低估从训练数据中归纳出这个概念的难度。（也因此低估了直接描述这个概念的难度——见《愿望的隐藏复杂性》。）

第二种谬误，是拟人化的乐观。Bill Hibbard 会用自己的智能，去生成那些在自己偏好排序中排位较高的选项与计划；因此，当有人说超级智能可能会把前所未见的微小分子笑脸归类为「smile」的正例时，他会觉得难以置信。按照 Hibbard 对「smile」这个概念的使用方式（也就是用它来描述超级智能的理想行为），如果把「smile」扩展到涵盖微小分子笑脸，那在他的偏好排序里会排得极低；那会是一件愚蠢的事——而且是内在愚蠢的，仿佛这是概念本身的一种属性——所以超级智能当然不会这么做；这显然就是错误的分类。一个超级智能当然能看出哪些卵石堆是正确的，哪些是错误的。

哎呀，友好 AI 根本一点也不难！你只需要一个会去做善事的 AI 就够了！哦，当然，不是每一种可能的心智都会去做善事——但在这个场景里，我们只要把超级智能编程成去做善事就行了。你只需要一个神经网络，让它看上几个善事和非善事的例子，你就得到了一个分类器。再把它接到一个期望效用最大化器上，问题就解决了！

我将这称为「魔法般的类别」谬误——一些看起来简简单单的小词，却仿佛天然携带着 AI 所需的全部功能。为什么不这样给一个国际象棋程序编程呢：拿一组赢棋与输棋的棋步序列，喂给一个神经网络（也就是某种魔法类别吸收器），让它学会生成「赢棋」序列？早在 1950 年代，人们曾以为 AI 可能就这么简单，但事实并非如此。

新手以为，友好 AI 是一个关于强迫 AI 去做你想让它做的事，而不是跟随它自身欲望的问题。但友好 AI 的真正问题，其实是一个沟通问题——你得传递像「善」这样的类别边界，而这种边界无法在你能于 AI 童年时期提供的任何训练数据中被完整描画出来。相对于未来所涵盖的那整个可能性空间，连我们自己都还没想象出绝大多数边界案例；我们必须展开真正完整的道德争论，才能把它们弄清楚。要解决 FAI 问题，你就必须跳出「对人类标注训练数据做归纳」这一范式，以及「由人类生成内涵定义」这一范式。

当然，就算 Hibbard 真的成功向 AI 传达了一个概念，它恰好涵盖了每一种 Hibbard 会标成「smile」的人类面部表情，同时排除了每一种他不会标成「smile」的面部表情……

那么，得到的这个 AI 在童年时期看起来就会显得运作正确，因为那时它还弱小，只能通过取悦程序员来制造 smile。

可当 AI 发展到超级智能阶段，并拥有自己的纳米技术基础设施时，它就会把你的脸扯下来，接上线缆，让它永远保持微笑，然后开始复印。

这类问题的深层答案超出了本文范围，但在友好 AI 里有一条普遍原则：不存在什么创可贴。2004 年，Hibbard 修改了自己的提案，声称人类表达同意的表情，应当强化「快乐」的定义，而后「快乐」再去强化其他行为。可就算这真能奏效，也只会导致 AI 去复印一大群在它自己的概念空间里与程序员对着氢原子说

「对，这就是快乐！」相似的东西——毕竟，氢原子是很容易制造的。

我和 Hibbard 讨论的链接在这里。重要部分你已经看到了。

Bill Hibbard, “Super-Intelligent Machines,” ACM SIGGRAPH Computer Graphics 35, no. 1 (2001): 13–15, http://www.siggraph.org/publications/newsletter/issues/v35/v35n1.pdf. ↩︎

Eliezer Yudkowsky, “Artificial Intelligence as a Positive and Negative Factor in Global Risk,” in Bostrom and Ćirković, Global Catastrophic Risks, 308–345. ↩︎

Thoughts Memo 翻译合集

魔法般的类别