道德禁令

Ethical Injunctions

如果杀婴才是正确之举,你会去杀婴儿吗?如果不会,那么在什么情况下你会不去做正确的事?如果会,那么它得正确到什么程度,要杀多少婴儿才够?

——可怕的求职面试问题

暂时换顶帽子来谈,作为专业研究者,我对这类「即便它们看起来是正确之举,你也不该去做的事」的决策理论很着迷。

假设我们有一个反思型 AI,它能够自我修改、自我提升,而当前还处在开发过程中的中间阶段。尤其是,这个 AI 的目标系统还没有完成——它的动机形状仍在被加载、学习、测试或微调。

是的,我已经见过许多把 AI 目标系统设计搞砸的方法,结果造出一个决策系统:在给定其目标后,它会判定宇宙理应被微小的分子笑脸图案铺满,或者诸如此类。通常,这类致命提案还有一个共同特征:AI 不会希望程序员来修好它。如果 AI 已经足够先进——而这即便在中间阶段也可能发生——那么它还可能意识到,欺骗程序员、隐藏自己思想中的变化,将有助于把宇宙变成笑脸图案。

现在,从我们程序员的视角来看,如果我们以 AI 已经决定向程序员隐藏自己的思想这一事实为条件,或者以它已经开始蓄意欺骗我们为条件,那么看起来就很可能是目标系统里出了某种意料之外的后果。我们会认为,AI 并没有按预期工作,而更可能是我们把它的效用函数搞坏了。因此,AI 现在想把宇宙变成一堆微小的奖励系统计数器之类的东西,于是便有了躲着我们的动机。

好吧,假设我们并不打算把某个对象层面的伟大想法直接实现成 AI 的效用函数。相反,我们要做一些更高级、更递归的事——构建一个知道(并在乎)外部程序员存在的目标系统。一个通过某种并不平凡的内部结构而「知道自己正在被编程」、也「知道自己尚未完成」的目标系统。那样一来,也许你就能拥有并保留这样一条规则:

如果[我认定]欺骗我的程序员才是正确之举,那就执行受控停机[而不要去做那个正确之举]。

而这个 AI 会保留这条规则,哪怕经历了自我修改 AI 对自身代码的一次次修订,也仍然如此;因为在它那个结构并不平凡的目标系统中,当下的 AI 理解到:未来某个 AI 作出这样的决定,很可能意味着某种被定义为故障的情况。更进一步地说,当下的 AI 也知道:一旦这种假想中的故障发生,如果未来的 AI 试图去评估执行停机的效用,那么未来的 AI 很可能会决定不关闭自己。因此,停机应该是无条件、自动发生的,而不能再给目标系统一次重新计算「正确之举」的机会。

我不打算深入那套精确数学结构的幽暗深处,因为那会超出本书的范围。再说,我自己现在也还不知道那套数学结构的幽暗深处到底长什么样。看起来,它应该是可能的——前提是你做的是那种高级而递归、并且具有非平凡(但一致)结构的东西。但我还没达到那个层次;所以现在,这还只是一个梦想

但这里的话题不是高级 AI,而是人类伦理。我之所以引入这个 AI 场景,是为了更鲜明地凸显出「道德禁令」这个奇特概念:

你绝对、绝对不该去谋杀一个曾帮助过你的无辜者,即便那似乎是正确之举;因为比起「谋杀一个曾帮助过你的无辜者真的是正确之举」,更可能的是你犯了错

听起来合理吗?

第二次世界大战期间,为了阻止德国实现裂变链式反应的企图,就有必要摧毁德国手中的氘供应——氘是一种中子减速剂。而当时他们的氘,来自挪威一处被占领设施。那批重水正装在一艘挪威渡轮 SF Hydro 上。Knut Haukelid 和另外三人潜入这艘渡轮,准备实施破坏;就在这时,他们被渡轮上的值班守卫发现了。Haukelid 告诉对方,他们是在逃避盖世太保,那名守卫立刻同意对他们的存在视而不见。Haukelid「考虑过警告这位恩人,但最终决定那样可能危及任务,于是只是向他道谢,并和他握了手。」1 随后,这艘民用渡轮 Hydro 在湖最深处沉没,造成 18 人死亡、29 人生还。一些挪威救援者觉得,在场的德国士兵应该任其溺死,但这种态度并未占上风,最终有 4 名德国人被救起。而这,事实上,也就成了纳粹原子武器计划的终点。

这是好决定吗?坏决定吗?德国很可能反正也造不出原子弹……我只能以绝望的真诚祈愿,自己永远不要面对那样的抉择;但归根结底,我说不出一句反对的话。

另一方面,若说到这样一条规则:

永远不要试图欺骗自己,也不要给出一个并非基于大概率真相的相信理由;因为即便你想出了一个惊人巧妙的理由,更可能的仍是你犯了错,而不是你有充分理由期待这在长期中会带来净收益。

那么,我还真不知道有谁曾经明知自己面对的是一个例外情形。有些时候,你会在和盖世太保军官说话之前,试着说服自己「我地下室里没藏任何犹太人」。但那时你其实依然知道真相;你只是在努力构造某种类似替身自我的东西,让它存在于你的想象里,作为一个用来和盖世太保军官交谈的假面。

但要让自己真的相信某个不真实的东西?我不知道是否曾有过谁,明知如此还这么做,并且这居然是个好主意。我确信,在人类历史上,一定有过很多很多次:某个人 X 因为持有某个错误信念 Y 而过得更好。同理,每一次彩票开奖里,也总会存在某一组中奖号码。认知上的困难在于,知道哪张彩票会赢;同样地,困难也在于让 X 知道自己什么时候会因为一个错误信念而过得更好。

自我欺骗是最糟糕的一类黑天鹅式赌注,比撒谎糟糕得多,因为如果你不知道事情的真实状态,你甚至连自己的自我欺骗会招致什么惩罚都猜不到。它们只要爆一次,就足以抹去它们曾经带来的全部好处。只要有那么一次:你在发现肿块之后去向上帝祈祷,而不是去看医生。这就足以毁掉一生。来世这一温暖想法曾给人类带来的全部幸福,现在都已经被另一件事抵消得绰绰有余:当液氮变得廉价易制之后,人类却没能建立起系统性的低温保存机制。而我也不认为,当人们说「但我们需要宗教信仰来缓冲对死亡的恐惧」时,他们脑中曾把这种失败设想成一种可能的爆炸后果。黑天鹅式赌注说到底就是这么回事——意料之外的爆炸。

也许你甚至还能靠一两次黑天鹅式赌注侥幸脱身——它们并不会每次都找上你。于是你又做了一次,再做一次;然后那次爆炸终于来了,不仅把此前的一切收益全部抵消,还要倒赔更多。黑天鹅式赌注就是这么回事。

因此,困难在于:你怎么知道什么时候相信一个谎言是安全的(前提还是你在一开始就真的能把自己的心智扭曲到那个程度)——黑天鹅式赌注的一部分本性就在于:你看不见那颗杀死你的子弹;而既然我们的感知总是显得像世界本来的样子,于是看起来就像根本不存在什么子弹,句号。

所以我会说,存在一条反对自我欺骗的道德禁令。我把它称为「道德禁令」,并不主要是因为它属于人际道德问题(虽然它也确实属于),而是因为它是一条用来防范你自己的聪明才智的规则——是对那种「去做看似正确之事」之诱惑的覆盖性否决。

于是现在,我们就有了两类能够支撑「道德禁令」的情境:一种规则,要求你在某件事是正确之举时也不要去做。(也就是说,你克制自己不去做,「即便你的大脑已经算出那是正确之举」;只是那在主观上会显得像「正确之举」。)

第一,既然我们是人类,而且运行在受损的硬件上,我们就可以概括出某些情境类别:在这些情境里,当你说出诸如「为了更大的善,是时候去抢几家银行了」这种话时,我们会认为,比起这事在现实中真的成立,更可能的是你已经被腐化了。(请注意,我们并不是禁止它在现实永远不可能成立;我们质疑的是那种认识论状态——也就是,你有正当理由信任自己关于「这是正确之举」的计算。公平的彩票确实可能中奖,但你不能因此就有正当理由去买它。)

第二,历史可能会告诉我们,某些行动类别属于黑天鹅式赌注;也就是说,它们有时会因为不在决策者模型之内的原因而发生巨大爆炸。因此,即便我们在模型内部算出某件事似乎是正确之举,我们仍会进一步运用关于黑天鹅问题的知识,得出一条反对此事的禁令。

但是当然……如果一个人知道这些理由……那他不就可以把这些因素纳入考虑,重新计算一遍吗?这样一来,只要是在把受损硬件问题和黑天鹅式爆炸问题也算进去之后,抢银行看起来仍然是正确之举,我们就可以去抢银行。那才是理性的路线,对吧?

对此,我可以给出若干种回应。

我先要说,这正是我在告诫有志成为理性主义者的人要警惕「聪明劲」时,心中所指的那类思维的典型例子。

我还要指出:如果某个友好 AI 的尝试版本刚刚判定地球理应被改造成回形针,我可不会希望它再来评估一遍:考虑到自己收到过的种种警告,这件事到底合不合理。我会希望它自动执行受控停机。谁说元推理就不受腐化影响呢?

我还可以提起那些重要时刻:我那些天真而理想主义的伦理禁忌,曾经怎样保护我免受我自己之害,让我在极其深重、而我自己完全没意识到的错误之中,仍然处于可恢复的位置,或者帮助我开始恢复。然后我还可以追问:我如今真的进步了那么多吗?拆掉那些曾救过我的保护装置,真的会是多么明智的事吗?

可即便如此……「我是不是仍然比我的伦理更蠢?」这个问题,其答案也并不会自动就是「是」。

这里面有一些显而易见的蠢事,是你不该做的;例如,你不该等到自己真的受到诱惑时,然后才试图弄明白:在那一次具体场合里,你是不是比自己的伦理更聪明。

但从总体上说——你父母告诉你不要做的事,终究只会拥有有限的力量。人不该低估这种力量。聪明人曾在塑造启蒙伦理的过程中反复辩论历史教训,而西方文化有很大一部分正是从这些伦理中汲取养分;有些亚文化,比如科学学术界,或者科幻迷圈子,则更直接地从这些伦理中取材。但即便如此,过去的力量仍然是有边界的。

而事实上……

我不得不把自己的伦理要求,定得比我的父母、Jerry PournelleRichard Feynman 告诉我不要做的那些事严格得多

有趣的是,当人们似乎认为自己比自己的伦理更聪明时,他们主张的总是更少的严格性,而不是更多的严格性。我的意思是,想想现代世界变得有多复杂……

同样地,那些跑来对我说「你应该在智能爆炸这件事上撒谎,因为那样你就能争取到更多支持者;为了更大的善,这才是理性的做法」的人——这些人对其中的风险似乎毫无概念

他们不会提到运行在受损硬件上的问题。他们不会提到这样一种想法:谎言必须被递归地保护起来,防范所有会威胁它的真相,以及一切寻找真相的技术。他们不会提到:诚实的路径拥有一种不诚实的路径往往缺乏的简洁性。他们不会谈黑天鹅式赌注。他们不会谈:当你丢掉自己对抗自身的最后一道防线,试图只靠赤裸裸的计算活下去时,那种可怕的裸露感。

我相当确定,这是因为他们对这些东西根本一无所知

如果你真的理解了伦理背后的理由与节奏,那么一个重要标志就是:在这种新知识的增益之下,你不会去做那些以前看起来像伦理越界的事。只不过现在,你知道了为什么。

如果一个人只是看到伦理背后的一两条理由,就说:「好,我已经理解了,所以以后我只要在意识层面把这些因素算进去,因此我也就不再需要伦理禁忌了。」那么,这个人的表现更像一个刻板印象,而不是真正的理性主义者。世界并不简单,也不纯粹,更不干净,所以你当然不能只是拿着自己从小被灌输的伦理就全盘照收。但那种瓦肯式逻辑的伪装——以为自己只要有了一两条抽象洞见,就能把一切都正确计算出来——在现实生活中同样行不通。

至于那些对这一切什么都没想明白,却还觉得自己比自己的伦理更聪明的人:哈。

至于那些先前就觉得自己比自己的伦理更聪明、只是直到读到这篇文章才第一次明确地想到道德禁令背后还有所有这些要素、而现在又因为「以后会把这些都算进去」而继续觉得自己比自己的伦理更聪明的人:双倍的哈。

我见过许多人奋力想为自己开脱,好让自己摆脱伦理。每一次修改,都是朝着更宽松的方向去的,从来不是为了让自己更严格。而我总是震惊于:他们以何等迅速、何等轻快的姿态,试图抛弃自己的保护装置。Hobbes 说过:「我不知道更糟的是每个人都有一个价码,还是他们的价码竟然这么低。」价码如此之低,他们又如此热切地想被买下。在认定自己别无选择、只能越界之前,他们甚至不会再看第二遍,然后再看第三遍,去寻找替代方案——尽管他们在说这话时,脸上也许会显得非常严肃庄重。他们一有机会,就立刻抛弃自己的伦理。「只要你一心想失败,总能找到障碍。」有些人对在伦理上失败,似乎怀着极其强烈的意志。

我不知道自己是否能赞同那种绝对的道德禁令——它要对一个人脑在所有可能的认识状态下都一概生效。宇宙并没有善良到让我能放心信赖这一点。(不过,举例来说,反对自我欺骗的道德禁令,在我看来确实拥有极其巨大的力量。我见过很多人为暗面辩护的人,而他们当中没有一个似乎意识到自我欺骗的网络风险或黑天鹅风险。)如果有一天,我尝试在一个可自我修改的 AI 内部塑造出某种(反思一致的)禁令,那也只会是在我把数学推导清楚之后,因为这完全不是那种能靠一个特设补丁蒙混过关的事。

但至少,这一点我是要说的:

我对那些急切地跑来,用郑重其事的口吻对我说「做不道德的事 X 是理性的,因为它会带来好处 Y」的人,其知识、推理以及整体水平,完全提不起任何敬意。

Richard Rhodes,The Making of the Atomic Bomb(New York: Simon & Schuster,1986)。↩︎