魔法般的类别

Magical Categories

我们可以把智能机器设计成这样:它们首要的、先天的情绪,是对所有人类的无条件之爱。首先,我们可以构建相对简单的机器,让它们学会在人类面部表情、人的声音和人体语言中识别快乐与不快乐。然后,我们可以把这种学习结果硬接线进更复杂的智能机器里,作为它们先天的情绪价值:当我们快乐时给予正强化,当我们不快乐时给予负强化。

——Bill Hibbard(2001),Super-Intelligent Machines1

这段话发表在一份同行评审期刊上,而且作者后来还专门为此写了一整本书,所以我在这里讨论的并不是什么稻草人立场。

所以……呃……到底还能出什么岔子呢……

当我提到(第 7.2 节)2:Hibbard 的 AI 最终会用微小的分子笑脸把银河系铺满时,Hibbard 写了一篇愤怒的回应,说道:

当构建超级智能变得可行时,构建一种对「人类面部表情、人的声音和人体语言」(用的正是你引用我的原话)的硬接线识别,也同样会是可行的;而且这种识别的准确度会超过当下像你我这样的人类,当然也绝不会被「微小的分子笑脸图案」所愚弄。你不该把我的想法设想成一种如此糟糕的实现,以至于它连当代人类都觉得微不足道的区分都做不出来。

正如 Hibbard 还曾写道:「这种显而易见、自相矛盾的假设,说明 Yudkowsky 重戏剧而轻理性。」我先顺带指出一点:Hibbard 恰好展示了一个关键事实——在你获准谈论 AI 道德之前,并不存在什么必须通过的职业资格考试。不过,这并不是我今天的主要话题。虽说关于当下棋局状态,有一个至关重要的事实是:大多数 AGI/FAI 追梦人都完全不适合承担这项任务;我所认识的人里,没有谁会愤世嫉俗到在没有亲眼见过之前,就能想象那种恐怖。就连 Michael Vassar,大概第一次亲历时也还是吃了一惊。

不,我今天在这里,是为了剖析这句话:「你不该把我的想法设想成一种如此糟糕的实现,以至于它连当代人类都觉得微不足道的区分都做不出来。」

很久很久以前——我在好几个版本、好几个地方都见过这个故事,有时它还被当成真事来引用,但我始终没追到最原始的出处——总之,很久以前,美国陆军想用神经网络来自动探测伪装起来的敌军坦克。

研究人员用 50 张树林中伪装坦克的照片,以及 50 张没有坦克的树林照片来训练一个神经网络。利用监督学习的标准技术,研究人员把这个神经网络训练到一组权重,使它能在训练集上正确加载——对那 50 张伪装坦克照片输出「是」,对那 50 张森林照片输出「否」。

当然,这并不能证明,甚至也不意味着,它会正确分类新的样本。这个神经网络也许只是「学会」了 100 个无法泛化到新问题上的特殊情况。它学到的不是「伪装坦克 vs. 森林」,而只是「照片 1 为正、照片 2 为负、照片 3 为负、照片 4 为正……」。

不过研究人员很明智:他们最初一共拍了 200 张照片,其中 100 张是坦克、100 张是树木,而训练集只用了其中一半。研究人员让神经网络在剩下的 100 张照片上运行,而且在不做进一步训练的情况下,神经网络把剩余照片全部正确分类。成功得到确认!

研究人员把完成的成果交给了五角大楼;五角大楼很快又把它退了回来,抱怨说:在他们自己的测试里,这个神经网络在区分照片方面并不比碰运气好多少。

后来发现,在研究人员的数据集中,伪装坦克的照片是在阴天拍的,而普通森林的照片是在晴天拍的。这个神经网络学会区分的是阴天与晴天,而不是伪装坦克与空树林。

这个寓言——不管它是真是假——说明了监督学习领域、乃至整个人工智能领域中一个最根本的问题:只要训练问题与真实问题在语境上存在哪怕最细微的差异——只要它们并非来自同一个独立同分布过程——那就不存在从过去成功推导到未来成功的统计保证。即便 AI 在训练条件下看起来运行得非常好,也无济于事。(这不是一个无法解决的问题,但它是一个无法打补丁修好的问题。要真正处理它,有更深层的办法——那超出了本文范围——但绝不存在什么创可贴。)

正如《超指数式概念空间》中所说,可选概念的数量,比可选对象的数量还要呈指数级更多;正如可选对象的数量,本身又是属性数量的指数函数。如果一张黑白图像的边长是 256 像素,那么整张图像就是 65,536 个像素。可能图像的总数是 2^65,536。而将图像分为正例与负例的可能概念总数——也就是你在图像空间中可能画出的边界总数——则是 2^(2^65,536)。由此可见,即便是监督学习,几乎也完全取决于归纳偏置;若没有归纳偏置,即使分类在时间上保持不变,也至少需要 2^65,536 个已分类样本,才能在 2^(2^65,536) 个可能概念之间作出区分。

那么现在让我们重新回到这段话:

首先,我们可以构建相对简单的机器,让它们学会在人类面部表情、人的声音和人体语言中识别快乐与不快乐。然后,我们可以把这种学习结果硬接线进更复杂的智能机器里,作为它们先天的情绪价值:当我们快乐时给予正强化,当我们不快乐时给予负强化。

以及

当构建超级智能变得可行时,构建一种对「人类面部表情、人的声音和人体语言」(用的正是你引用我的原话)的硬接线识别,也同样会是可行的;而且这种识别的准确度会超过当下像你我这样的人类,当然也绝不会被「微小的分子笑脸图案」所愚弄。你不该把我的想法设想成一种如此糟糕的实现,以至于它连当代人类都觉得微不足道的区分都做不出来。

区分一张包含伪装坦克图像的照片,与一张空树林的照片,其实是件微不足道的小事——如果你的意思只是判定这两张照片并不完全相同。它们本来就是不同的像素数组,里面的 10 排列也不同。区分它们,简直就像对数组做相等性测试一样简单。

但从一组已被标注为正例或负例的训练照片出发,推理并把新照片分类为「smile」的正例或负例,那就是完全不同量级的问题了。

当你拿到一张来自真实世界相机的 256×256 图像,而这张图像碰巧描绘的是一辆伪装坦克时,图像里并不存在额外的第 65,537 位,用来标示其正性——不存在某个小小的 XML 标签写着:「这张图像内在地就是正例。」它之所以是正例,只是相对于某个特定的概念而言。

但对于任何非 Vast 级别的训练数据——也就是任何并未包含你眼前这个精确逐位图像的训练数据——都存在超指数级海量的可能概念,与既有分类结果相容。

对 AI 来说,要在这些超指数级的可能性中做出选择或赋予权重,靠的是归纳偏置。而它未必与你心中所想一致。在这两种样本分类过程之间——一边是归纳,另一边是用户真实的目标——横着一道并不容易跨越的鸿沟。

假设 AI 的训练数据如下:

数据集 1

Smile_1, Smile_2, Smile_3

Frown_1, Cat_1, Frown_2, Frown_3, Cat_2, Boat_1, Car_1, Frown_5.

现在,这个 AI 成长为一个超级智能,并遇到了如下数据:

数据集 2

Frown_6, Cat_3, Smile_4, Galaxy_1, Frown_7, Nanofactory_1, Molecular_Smileyface_1, Cat_4, Molecular_Smileyface_2, Galaxy_2, Nanofactory_2.

并不是说,这些数据集本身就带有某种属性,能保证 AI 推断出的分类恰好是你会偏好的这一种:

Smile_1, Smile_2, Smile_3, Smile_4

Frown_1, Cat_1, Frown_2, Frown_3, Cat_2, Boat_1, Car_1, Frown_5, Frown_6, Cat_3, Galaxy_1, Frown_7, Nanofactory_1, Molecular_Smileyface_1, Cat_4, Molecular_Smileyface_2, Galaxy_2, Nanofactory_2.

而不是

Smile_1, Smile_2, Smile_3, Molecular_Smileyface_1, Molecular_Smileyface_2, Smile_4

Frown_1, Cat_1, Frown_2, Frown_3, Cat_2, Boat_1, Car_1, Frown_5, Frown_6, Cat_3, Galaxy_1, Frown_7, Nanofactory_1, Cat_4, Galaxy_2, Nanofactory_2.

这两种分类都与训练数据相容。与训练数据相容的概念数量还会大得多,因为不止一个概念可以在合并后的数据集上投下相同的影子。如果可能概念的空间包含了所有能够对实例进行分类的可能计算,那么这个空间就是无限的。

AI 会选择哪一种分类?这不是训练数据的内在属性;这是 AI 如何执行归纳的属性。

哪一种才是正确的分类?这也不是训练数据的属性;它是你偏好的属性(或者,如果你愿意,也可以说,它是那个你称作「正确」理想化抽象动力学的属性)。

那个你想要的概念,在你亲自给每个实例标上 +- 时,把它的影子投到了训练数据上;而你做这件事时,调用的是你自己的智能与偏好。这正是监督学习的本质——给 AI 提供带标注的训练样本,而这些样本投射出了那个生成标签的因果过程的一道影子。

但除非训练数据来自与现实生活完全相同的语境,否则训练数据在某种意义上就会是“浅的”,是从一个维度高得多的可能性空间上投下来的投影。

在它那个人类之下智能的训练阶段里,AI 从未见过微小的分子笑脸;或者说,它从未见过一个快乐计数器被设成 googolplex 的微型小代理。可当终于面对一个微小的分子笑脸——或者一尊极为逼真的人脸微雕时——你立刻就知道,这并不是想算作 smile 的东西。但这种判断反映的是一个不自然的类别,它的分类边界会对你复杂的价值极其敏感。你说「不!」的时候,真正起作用的是你自己的计划与欲望。

Hibbard 会本能地知道,微小的分子笑脸并不是「smile」,因为他知道,那不是他想让他设想中的 AI 去做的事情。可如果别人拿到的是另一个任务,比如给艺术作品分类,他们也许就会觉得,《蒙娜丽莎》显然是在微笑——而不是在皱眉——尽管那也不过只是颜料而已。

正如 Terri Schiavo 一案所说明的,技术会制造新的边界案例,把我们抛进全新的、而且本质上属于道德的两难中。给 AI 看古希腊时代活人和死人的图片,并不能让 AI 就「关闭 Terri 的生命维持系统是否等同谋杀」作出一个道德判断。即便从归纳的角度说,那些信息也根本不在数据集里!Terri Schiavo 提出了新的道德问题,诉诸新的道德考量;而当你给古希腊时代活人与死人的照片做分类时,根本无需考虑这些。那时候没有人躺在生命维持系统上、脑子已经有一半变成液体却还在呼吸。所以这些考量并未参与到你给古希腊训练数据分类的因果过程中,因而也就没有在训练数据上投下影子,也就无法通过对训练数据的归纳获得。

从形式谬误的角度看,我在这里看到了两种拟人化错误。

第一种谬误,是低估了我们为了其价值而发展出的概念之复杂度。如果边界案例属于我们从未见过的那一类,那么这个概念的边界就会依赖许多价值,甚至还可能依赖当场展开的道德推理。但这一切都在后台、以不可见的方式发生;对 Hibbard 来说,它只是显得:微小的分子笑脸显然不是 smile。我们也不会生成所有可能的边界案例,因此我们也就不会想到:在重新定义这个概念时,有哪些考量可能发挥作用,只是它们尚未真正参与过定义。正因为人们低估了自己概念的复杂度,他们才会低估从训练数据中归纳出这个概念的难度。(也因此低估了直接描述这个概念的难度——见《愿望的隐藏复杂性》。)

第二种谬误,是拟人化的乐观。Bill Hibbard 会用自己的智能,去生成那些在自己偏好排序中排位较高的选项与计划;因此,当有人说超级智能可能会把前所未见的微小分子笑脸归类为「smile」的正例时,他会觉得难以置信。按照 Hibbard 对「smile」这个概念的使用方式(也就是用它来描述超级智能的理想行为),如果把「smile」扩展到涵盖微小分子笑脸,那在他的偏好排序里会排得极低;那会是一件愚蠢的事——而且是内在愚蠢的,仿佛这是概念本身的一种属性——所以超级智能当然不会这么做;这显然就是错误的分类。一个超级智能当然能看出哪些卵石堆是正确的,哪些是错误的

哎呀,友好 AI 根本一点也不难!你只需要一个会去做事的 AI 就够了!哦,当然,不是每一种可能的心智都会去做事——但在这个场景里,我们只要把超级智能编程成去做事就行了。你只需要一个神经网络,让它看上几个事和非事的例子,你就得到了一个分类器。再把它接到一个期望效用最大化器上,问题就解决了!

我将这称为「魔法般的类别」谬误——一些看起来简简单单的小词,却仿佛天然携带着 AI 所需的全部功能。为什么不这样给一个国际象棋程序编程呢:拿一组赢棋与输棋的棋步序列,喂给一个神经网络(也就是某种魔法类别吸收器),让它学会生成「赢棋」序列?早在 1950 年代,人们曾以为 AI 可能就这么简单,但事实并非如此

新手以为,友好 AI 是一个关于强迫 AI 去做想让它做的事,而不是跟随它自身欲望的问题。但友好 AI 的真正问题,其实是一个沟通问题——你得传递像「善」这样的类别边界,而这种边界无法在你能于 AI 童年时期提供的任何训练数据中被完整描画出来。相对于未来所涵盖的那整个可能性空间,连我们自己都还没想象出绝大多数边界案例;我们必须展开真正完整的道德争论,才能把它们弄清楚。要解决 FAI 问题,你就必须跳出「对人类标注训练数据做归纳」这一范式,以及「由人类生成内涵定义」这一范式。

当然,就算 Hibbard 真的成功向 AI 传达了一个概念,它恰好涵盖了每一种 Hibbard 会标成「smile」的人类面部表情,同时排除了每一种他不会标成「smile」的面部表情……

那么,得到的这个 AI 在童年时期看起来就会显得运作正确,因为那时它还弱小,只能通过取悦程序员来制造 smile。

可当 AI 发展到超级智能阶段,并拥有自己的纳米技术基础设施时,它就会把你的脸扯下来,接上线缆,让它永远保持微笑,然后开始复印。

这类问题的深层答案超出了本文范围,但在友好 AI 里有一条普遍原则:不存在什么创可贴。2004 年,Hibbard 修改了自己的提案,声称人类表达同意的表情,应当强化「快乐」的定义,而后「快乐」再去强化其他行为。可就算这真能奏效,也只会导致 AI 去复印一大群在它自己的概念空间里与程序员对着氢原子说

「对,这就是快乐!」相似的东西——毕竟,氢原子是很容易制造的。

我和 Hibbard 讨论的链接在这里。重要部分你已经看到了。

Bill Hibbard, “Super-Intelligent Machines,” ACM SIGGRAPH Computer Graphics 35, no. 1 (2001): 13–15, http://www.siggraph.org/publications/newsletter/issues/v35/v35n1.pdf. ↩︎

Eliezer Yudkowsky, “Artificial Intelligence as a Positive and Negative Factor in Global Risk,” in Bostrom and Ćirković, Global Catastrophic Risks, 308–345. ↩︎