真的会有正确答案吗？

❦

多年前，Eliezer1999 深信自己对道德一无所知。据他所知，道德完全可能要求灭绝整个人类物种；如果真是这样，他也看不出站出来反抗道德有什么美德可言，因为他认为，按定义，一旦他假定了那样一个道德事实，那就意味着人类灭绝才是「应当」去做的事。

我觉得，也许只要有足够长的推理时间和足够多的事实，我就能想明白什么是正确的；但眼下我对此并没有任何信息。我无法信任创造了我的进化。那还剩下什么基础可供立足呢？

嗯，就他明确表述出来的哲学立场而言，Eliezer1999 对道德的本质确实犯了极大的错误。

但正如 Davidson 曾观察到的，如果你相信「海狸」生活在沙漠里、通体纯白、成年后重 300 磅，那么你其实并没有任何关于海狸的信念，无论真假。你至少得先在某些信念上搞对，剩下那些信念才可能是关于某物的错误。[][13]

我以为自己对道德没有任何相关信息，这一信念在内部并不一致。

说自己一无所知，会让我感觉很有德性，因为我曾被教导说，坦承自己的无知是一种美德。什么「我唯一知道的就是我一无所知」，诸如此类。但在这种情形下，我倒更该认真想想那句承认有些夸张的话：「最大的傻瓜，就是不知道自己是有智慧的人。」（这离最大那类愚蠢还差得远，但它确实是一种愚蠢。）

杀人是错的吗？嗯，我当时是这么想的，但我并不确定；也许杀人才是对的，尽管那看上去没那么可能。

怎样一种程序，才能回答杀人是否正确这个问题？这我也不知道；但我当时觉得，只要你造出一个通用超智能（后来我会把这叫作一个「完美空无的幽灵」），它总归就能，呃，推理出什么更可能是对的、什么更可能是错的；而且既然它是超智能，它就注定会得出正确答案。

我不知怎么竟没认真去想的那个问题在于：如果我不能把「发现道德的程序」「发现那种程序的程序」「发现那种程序的程序的程序」写进会写出后继 AI、再写出后继 AI 的那个起始状态里，那么这个超智能又要从哪里得到那套程序呢？

正如 Marcello Herreshoff 后来说过的：「除非我们不知道一个计算机程序的输出、同时又知道关于该输出的某个重要事实，否则我们根本不会费心去运行它。」如果我对道德一无所知，甚至都不声称自己知道道德的本性，那我又怎么能构造出任何计算机程序——哪怕是一个「超智能」的，或一个「自我改进」的——并声称它会输出某种叫作「道德」的东西呢？

计算机科学里有所谓的 no-free-lunch 定理——在一个最大熵宇宙里，平均而言，没有任何方案比其他方案更好。如果你对「道德」完全一无所知，那么也就不会有哪种计算程序看起来比别的程序更可能算出「道德」；同样，也不会有哪种元程序看起来比别的元程序更可能产出一个能计算「道德」的程序。

我当时以为，即便是一个完美空无的幽灵，一旦发现自己对道德一无所知，也一定会看出一种道德上的要求：去思考道德。

但难点恰恰在于「思考」这个词。思考并不是完美空无的幽灵自动就能开展的一种活动。思考要求运行某种构成该思考本身的特定计算。一个反思型 AI 若要决定去思考，就必须知道某种它相信比去请教通灵板更可能告诉它所想知道之物的计算；而且，这个 AI 还必须知道该如何解释输出结果。

如果一个人对道德一无所知，那么「应该」这个词到底还是什么意思？如果你既不知道死亡是对是错——也不知道你该如何发现死亡是对是错——又不知道某个给定程序是否可能输出一套判断死亡是对是错的程序——那这些词，「对」和「错」，究竟还意味着什么？

如果「对」和「错」这两个词里面根本没有任何预先烤进来的东西——没有起点——如果关于道德的一切都可以任意改动，不只是内容，连结构、起点和判定程序都一样——那它们的意义是什么？「我不知道什么是对的」和「我不知道什么是瓦卡利克西斯（wakalixes）」之间，又有什么区别呢？

科学家也许会说，科学里的一切都可以任意改动，因为任何理论都可能被证伪；但随后，他们至少对什么算作能够反驳该理论的证据有一些概念。会不会存在某种东西，能改变科学家对何谓证据的看法？

嗯，事实上会；一个读了些 Karl Popper、并以为自己知道「证据」是什么意思的科学家，可能会接触到支撑贝叶斯概率论的相干性与唯一性证明，而这可能改变他对证据的定义。事先他也许并没有任何明确的观念，认为这种证明是可能存在的。但他会有一种隐含的观念。那种观念会被预先烤进他的大脑里——即便并未在其中得到明确表征——以至于某种那样的论证，事实上就会说服他相信：贝叶斯概率论比他此前采用的那一种，更好地定义了「证据」。

以同样的方式，你也可以说：「我不知道道德是什么，但我一看见它就会知道。」而这句话是有意义的。

但那样一来，你就不是在彻底反叛你自身的进化天性。你是在假定：凡是被预先烤进你体内、用来识别「道德」的东西，即便未必绝对可信，至少也是你开始辩论时的初始条件。当你的道德直觉不过是单纯进化的产物时，你还能信任它们，认为它们至少能为你提供一些关于道德的信息吗？

但如果你把进化给你的每一种程序及其所有产物都丢掉，那么你丢掉的就是整个大脑。你丢掉了任何可能在看见道德时识别出它的东西。你丢掉了任何可能在听到道德论证后通过更新自己的道德观来回应它的东西。你甚至把解构者本身也一路解构掉了：你丢掉了支撑你得出「你不能信任进化在道德上是可靠的」这一结论的那些直觉。正是你现有的道德直觉告诉你：进化看上去并不是一个很好的道德来源。那么，「对」「应该」与「更好」这些词究竟还意味着什么？

人类并不能在看见真理时完美地认出它，狩猎采集者也没有关于证据之贝叶斯判据的明确概念。但我们全部的科学与全部的概率论，都是建立在一连串诉诸我们对「真理」的本能观念的基础之上的。若这个核心本身是有缺陷的，那我们在原则上就什么也做不了，根本不可能抵达今天这种科学观念；科学这一观念听上去只会显得毫无吸引力、毫无意义。

如果我能回到过去去和少年时代的自己辩论，有一个也许能把他从那个错误里摇醒的问题是：

会不会存在某种道德、某种既定的正当或错误，人类根本感知不到，不想去感知，也不会觉得有任何支持采纳它的道德论证有吸引力，甚至连支持采纳某种会采纳它的程序的道德论证也不会觉得有吸引力，等等？会不会存在一种道德，而我们自己却完全处在它的参照框架之外？可如果是这样，究竟是什么让这东西成为道德——而不是某块石板上写着「你当去杀人」之类字样、却完全没有给出任何正当化的命令呢？

所以，这一切都在暗示：你应当愿意接受，自己也许对道德知道一点点。也许没有任何不可置疑的东西，但至少还有一个可供你开始质疑自己的初始状态。也许它被预先烤进了你的大脑，而你自己并不明确知道；但无论如何，你的大脑会识别为对的东西，正是你正在谈论的对象。你至少会把自己回应道德论证的方式中的一部分当作一个起点来接受，以便把「道德」识别成某种值得去思考的东西。

但这是相当大的一步。

这意味着：你要接受，是你自己的心智在识别一个道德参照系，而不是把一切道德都看作某种从彼岸照射而来的巨大光芒（原则上你甚至可能根本感知不到它）。这还意味着：即便真有那样一道光，而你的大脑决定把它识别为「道德」，做出识别的仍然是你自己的大脑；因此，在我看来，你并没有逃避因果责任——道德责任也同样没有逃避掉。

这意味着：你得放弃这样一种观念——完美空无的幽灵必然会与你一致，因为那个幽灵可能占据着不同的道德参照系，会被不同的论证打动，并且在计算下一步该做什么时，其实在问的是另一个问题。

而如果你愿意把至少少数几样东西预先烤进这个名为「道德」的话题本身的意义里——烤进你在谈论「正当性」时所谈论的那种正当性的性质里——如果你甚至愿意接受：道德就是你在争论「道德」时所争论的那个东西——那么，为什么不也把其他直觉、把你自身的其他部分，也一起纳入这个起点呢？

为什么不接受：在**其他条件不变（ceteris paribus）**的情况下，快乐优于悲伤？

你以后也许会在自身之中，或建立在自身之上的某种基础上，找到批判这一点的理由——但现在为什么不先接受它呢？注意，这不只是把它当成一种个人偏好；而是把它当成某种预先烤进了你在问「什么才是真正对的？」时所提出的问题本身里的东西。

但那样一来，你可能会发现，自己对道德其实知道得相当多！没有任何确定无疑的东西——没有任何不可置疑的东西——没有任何无法争辩的东西——但仍然，信息已经不少了。你愿意放下自己的苏格拉底式无知吗？

当然，我并不按定义来争辩。但如果你声称自己对道德完全一无所知，那么你遇到的就不只是自己那些词语在意义上的问题，而不只是它们在可信性上的问题。

Rorty, “Out of the Matrix: How the Late Philosopher Donald Davidson Showed That Reality Can’t Be an Illusion.” ↩︎

Thoughts Memo 翻译合集

真的会有正确答案吗？