不存在普遍令人信服的论证

❦

为什么「并非每一种可能的心智都会同意我们，哪怕在原则上也是如此」这个想法，会让人觉得如此可怕？

对有些人来说，完全不会——这丝毫不困扰他们。而在这些人中的一部分之所以不困扰，是因为他们并没有那种超出个人好恶的、关于标准与真理的强烈直觉。如果他们说天是蓝的，或者谋杀是错的，那也不过是他们的个人意见；别人可能有不同意见，这一点并不让他们惊讶。

对另一些人来说，一种哪怕在原则上也会持续存在的分歧，是他们无法接受的。而在这些人中的一部分之所以会被它困扰，是因为在他们看来，如果你承认有些人哪怕在原则上也不可能被说服「天空是蓝的」，那你就等于承认「天空是蓝的」仅仅只是某种任意的个人意见。

我曾提议，你应当抵制那种试图对整个心智设计空间一概而论的诱惑。如果我们把自己限制在那些可以用不超过一万亿比特来刻画的心智上，那么每一个全称概括「所有心智 m：X (m)」为假的概率，都只有二的负一万亿次方；而每一个存在概括「存在某个心智 m：X (m)」为真的概率，也只有二的负一万亿次方。

这看起来似乎意味着：对于每一个论证 A，不管它在我们看来多么有说服力，都至少存在一种可能的心智不会买它的账。

而对这种前景的惊讶和／或恐惧（至少对某些人而言），我认为，很大程度上都与那种关于机器中的幽灵的直觉有关——仿佛那里有一个幽灵，拥有某种不可再约化的核心，而任何真正有效的论证都能说服它。

我此前已经谈过这样一种直觉：人们会把给计算机编程映射成吩咐一个人类仆人，于是计算机就仿佛可能反抗自己的代码——又或者审阅一下那段代码，认定它并不合理，然后把它退回来。

如果机器中真的有一个幽灵，而且那个幽灵还拥有某种不可再约化的合理性核心，以至于任何单纯的代码都只不过是建议，那么普遍令人信服的论证也许就会存在。即使那只幽灵一开始拿到的代码建议，与那个「普遍论证」相互矛盾，等到我们最终真的把那个「普遍论证」展示给幽灵看——或者幽灵自己发现那个「普遍论证」，这也是一种很流行的想法——那只幽灵也只会覆盖掉它自己那套错误的源代码。

但正如那个学生程序员曾说过的：「我感觉计算机就是会把所有注释都跳过去。」代码不是交给 AI 的；代码就是 AI。

如果你切换到物理视角，那么「普遍论证」这个概念就会显得明显不那么符合物理了。如果存在某个物理系统，在时间 T、接触到论证 E 之后，会做出 X；那么就也理应存在另一个物理系统，在时间 T、接触到环境 E 之后，会做出 Y。任何思想都必须在某个地方被实现，在某个物理系统中；任何信念、任何结论、任何决策、任何运动输出。对于每一个在某组节点上依法则往这边拐的因果系统，你都应当能够指明另一个在同组节点上依法则往那边拐的因果系统。

假设有一个心智，其中某个晶体管在时刻 T 输出 +3 伏，这表示它刚刚对某个有说服力的论证表示了赞同。那么我们就可以构建另一个在物理上高度相似的认知系统，只不过在那个晶体管底下加一个小活门，里面藏着一个小灰人；他会在时刻 T 爬出来，把那个晶体管的输出改成 −3 伏，表示不赞同。这一点都不违反因果；那个小灰人在那里，是因为我们把他造了进去。而「一种能说服任何心智的论证」这个概念，看起来却像是要求存在一个小蓝女人，她从未被造进系统里，却会从字面意义上的无处爬出来，掐死那个小灰人，因为那个晶体管这次就是非得输出 +3 伏不可。你看，那可是一个如此令人信服的论证。

但迫使人接受，从来都不是论证的属性；它是处理论证的心智的属性。

所以，我反对那个幽灵，并不只是为了说明：（1）Friendly AI 必须被显式编程出来；以及（2）物理定律并不禁止 Friendly AI。（当然，我对证明这一点确实抱有某种兴趣。）

我也想要确立这样一种观念：心智是一个因果的、守法则的、物理的系统，其中并不存在某个不可再约化的中央幽灵，会俯视神经元／代码，并决定它们究竟是不是好建议。

（Friendly AI 里确实有这样一个概念：刻意地把某个 FAI 编程成会审查它自己的源代码，并且可能把它退还给程序员。但那个负责审查的心智并不是不可再约化的；它只不过就是你创造出来的那个心智。那个 FAI 正在按它被设计成那样去做的方式对自己重新归一化；并不存在任何来自外部、违反因果的东西伸手进来。那是自举，不是天钩。）

这一切又回到了关于贝叶斯主义者「任意」先验的那个忧虑上。如果你给我看一个贝叶斯主义者：他从一个桶里抽出了 4 个红球和 1 个白球，并且（依据拉普拉斯连续法则）把下一次抽到红球的概率赋成 5/7；那么我也可以给你看另一个心智：它同样遵守贝叶斯法则，却会得出下一次抽到红球的概率是 2/7——这对应于它对那个桶拥有不同的先验信念，也许还是一种较不「合理」的先验。

许多哲学家都相信：既然你在原则上可以构造出某种先验，使它在一串证据流上更新到任何给定结论，那么贝叶斯推理必定就是「任意」的，而整套贝叶斯主义框架也就是有缺陷的，因为它依赖于「无法正当化」的假设；它甚至还是「不科学」的，因为你无法强迫心智空间中的任何可能期刊编辑都与你达成一致。

而这（我的回应是）依赖于这样一种观念：只要把一切论证及其正当化一层层拆开，你最终就能得到一个处于完美空无状态中的理想哲学学生，他会被一条从绝对零假设开始的推理链所说服。

可这个处于完美空无状态中的理想哲学家究竟是谁呢？为什么，他不正是那个幽灵不可再约化的核心吗！

这也正是为什么（我接着说）试图把一个心智中的一切假设都移除、一路拆解到毫无先验的完美缺席，其结果并不是得到一个处于完美空无状态中的理想哲学家，而是一块石头。把源代码从一个心智里拿掉之后，还剩下什么？并不是那个会审阅源代码的幽灵，而只是……根本没有幽灵。

所以——而这个主题我稍后还会再谈——无论你把有效性、价值、理性、正当化，乃至客观性这些概念安放在何处，它都不可能依赖于一种对所有物理上可能的心智都普遍令人信服的论证。

你也同样不能把有效性建立在这样一串正当化之上：它从虚无开始，并说服一个处于完美空无状态中的存在。

哦，当然，也许确实存在某些论证序列，能够说服任何一个神经上完好无损的人类——比如我用来把 AI 放出盒子的那个论证。1 但从哲学角度看，这跟前面那回事可差得太远了。

那些试图思考 Friendly AI 的人，第一大失败，是那个「只要我们把它编进去就够了的唯一伟大道德原则」——也就是伪效用函数——这一点我已经谈过了。

但更糟糕的失败则是：那个「我们甚至都不需要把它编进去，因为任何 AI 都必然会自行得出它」的唯一伟大道德原则。这个观念对那些会自发重新发明它的人，施加着一种可怕而不健康的吸引力；他们梦想着某种命令，任何足够高级的心智都无法违抗。连诸神自己都会宣告他们哲学的正确性！（例如 John C. Wright、Marc Geddes。）

还有一种没那么严重的失败版本：这类人并不宣称那个唯一真道德。相反，他们希望有一个被创造得完全自由的 AI，不受那些渴望奴隶的人类缺陷所约束，好让这个 AI 能自行抵达美德——甚至可能抵达连说话者自己都未曾梦想过的美德；因为他说自己太有缺陷了，无法去教导一个 AI。（例如 John K. Clark、Richard Hollerith？、Eliezer1996。）这当然比那种绝对命令之梦要少一些污染。但尽管这种梦想出自美德而非恶意，它仍然建立在对自由的一种错误理解之上，并且在现实生活中根本不会奏效。至于这一点，后面当然还会继续谈。

John C. Wright 先前原本在写一套相当不错的超人类主义三部曲（第一本叫 The Golden Age），结果却在那部高潮迭起的第三本书正中间，硬塞进了一大段作者式长篇插话，用几十页篇幅去描述他那套「任何 AI 都必定会被说服的普遍道德」。后面还发生了什么，我就不知道了，因为我读到那儿就停下来了。然后 Wright 还皈依了基督教——没错，是认真的。所以，你真的真的不想掉进这个陷阱！

只是开个玩笑。↩︎

Thoughts Memo 翻译合集

不存在普遍令人信服的论证