目的不能证明手段正当(在人类当中)

Ends Don’t Justify Means (Among Humans)

如果目的不能证明手段正当,那还有什么能?

——常被归于多人

我觉得自己像是运行在敌对硬件上。

——Justin Corwin

人类也许已经进化出一种政治革命的模式:起初相信自己在道德上优于腐败的现有权力结构,最后却自己也会被权力所腐化——这并不是他们心中有什么明确计划,而是因为那些曾如此行事并因此繁衍成功的祖先,在他们身上留下了回响。

这符合如下模板:

在某些情况下,人类已经进化成这样一种样子:他们以为自己是在为了亲社会的理由 Y 去做 X,但当人类真的去做 X 时,其他适应机制却会启动,以推动一种对自己有利的结果 Z

从这个命题出发,我现在要转向一个大大超出经典贝叶斯决策理论范围的问题:

如果我运行在受扭曲的硬件上呢?

在这种情况下,你甚至可能发现自己会说出这样一句看似矛盾的话——从经典决策理论的视角来看,这简直是纯粹的胡话:

目的不能证明手段正当。

但如果你运行在受扭曲的硬件上,那么,即便你经过反思后发现:自己夺取权力这件事看起来像是一种正义而利他的行为——这种看起来,也未必能为「夺取权力事实上就是最有利于部落的行动」这一命题提供多少证据。

在朴素实在论的作用下,你所运行的那套受扭曲硬件,以及它计算出来的那些受扭曲表象,会显得仿佛就是世界本身的纹理——仿佛事情本来就该是那样。

于是,我们就得到了一条看上去颇为古怪的规则:「为了部落的利益,不要通过作弊来攫取权力,即使那样做会给部落带来净收益。」

事实上,这样表述也许更明智。如果你只是说:「当它看起来会给部落带来净收益的时候,不要这么做。」那么总会有人回答:「但这不只是看起来如此——如果由我掌权,它就会给部落带来净收益。」

「不可信硬件」这一概念,看上去似乎完全处在经典决策理论的领域之外。(至于它会对反思性决策理论造成什么影响,我现在还说不上来;但那似乎才是处理它的合适层级。)

但在人的层面上,这个补丁看起来很直接。一旦你知道了这种扭曲,你就制定规则,描述这种被扭曲的行为,并把它列为禁止事项。比如一条规则说:「为了部落的利益,即使是为了部落的利益,也不要通过作弊来攫取权力。」或者说:「为了部落的利益,即使是为了部落的利益,也不要杀人。」

接着,哲学家就会登场,抛出他们的「思想实验」——设定这样一个场景:按设定,拯救五个无辜生命的唯一可能方式,就是杀死一个无辜的人,而且这场谋杀必定能救下那五个人。「有一辆火车正要碾过五个无辜的人,你根本不可能来得及警告他们跳开;但你可以把另一个无辜的人推到火车轨道上,从而让火车停下来。这就是你仅有的选项;你会怎么做?」

一个利他的人类,如果接受了某些义务论式禁令——而这些禁令,看上去完全可以由这样一些历史统计来加以证明:在不可信硬件上按某些方式推理,往往会导向什么结果——那么,在遇到这个思想实验时,就可能会感到某种心理上的不适。

所以,下面是对那位哲学家所设情景的一种回答;我至今还没听过任何一个被哲学家拿来开刀的人这样回答过:

「你设定说,拯救五个无辜生命的唯一可能方式,是杀死一个无辜的人;并且这场谋杀会确定无疑地救下那五个人;而且这些事实都被我以近乎确定的程度所知道。但既然我运行在受扭曲的硬件上,我就无法占据你要我去想象的那种认知状态。因此,我的回答是:在一个配得上人格地位、而且天生不带任何会被权力腐化之倾向的人工智能社会里,AI 为了救五个人而杀死那一个无辜者,会是正确的;而且,它的所有同侪也都会同意这一点。然而,我拒绝把这个回答延伸到我自己身上,因为你要求我去想象的那种认知状态,只可能存在于人类以外的其他类型主体那里。」

不过,在我看来,这像是一种闪避。我认为,宇宙已经足够不友善,以至于我们完全可能被正当地逼到必须考虑这类情境。那种到处抛出这类思想实验的人,很可能活该得到这样的回答。但任何一个人类法律体系,实际上都内含着对「为了抓到有罪者,我们可以把多少无辜者送进监狱?」这个问题的某种回答,哪怕这个数字并没有被明文写下来。

作为一个人类,我会尽量遵守人类为了彼此和平共处而制定出的那些义务论式禁令。但我并不认为,我们的这些义务论式禁令在字面意义上就是内在的、非结果主义的、终极的正确。我赞同把「目的不能证明手段正当」当作一条原则,用来指导那些运行在受扭曲硬件上的人类;但我不会把它赞同为一条适用于一个能作出良好校准估计之 AI 社会的原则。(如果你是让一个 AI 处在一整个由人类构成的社会里,那确实还会引入其他考量,比如人类是否会从你的例子中学到什么。)

因此,我不会说,一个设计良好的 Friendly AI(友好型 AI)就必然要拒绝把那一个人从高台边缘推下去,以此让火车停下。显然,我会期望任何体面的超级智能都能想出一个更好的第三方案。但如果摆在面前的真的只有这两个选项,而 FAI 在把所有连带效应都考虑进去之后——包括任何目睹此事并把故事传播出去的人类所受到的影响,等等——仍判断把那一个人推下去更明智,那么,当 AI 说正确的做法是牺牲一人以拯救五人时,我并不会把这看作什么警报信号。再说一遍,自己不会到处把人推到火车轨道上去,也不会为了资助自己的利他项目而去抢银行。只不过,恰好是个人类而已。但如果一个 Friendly AI 会被权力腐化,那就好比它会开始流出红色的血。会被权力腐化的倾向,是一种特定的生物适应,由特定的认知回路支撑,并且出于明确的进化原因,被我们的基因写进了我们体内。它自发出现在 Friendly AI 的代码里,和它的晶体管自发开始流血一样不可能。

我甚至还愿意更进一步地说:如果你面对的是这样一种心智,它们内建的扭曲会让它们高估一切对自己有利之行动给外界带来的伤害,那么它们就需要一条「目的并不禁止手段」的规则——也就是说,即便某件事看起来会伤害部落,你也应该去做那些对自己有利的事。按假设来说,如果它们的社会没有这条规则,那么其中的心智就会因为害怕用掉别人的氧气而拒绝呼吸,最后统统死掉。对它们来说,偶尔出现一次这样的过冲:某个人以社会净损失为代价攫取了个人利益——这看起来就会和、而且事实上也会和,我们人类中的某个人出于谨慎而放弃偷一条面包的机会一样,同样算得上谨慎的美德;而那次偷窃其实对他自己的收益,确实会大于商人的损失(包括所有连带效应)。

「目的不能证明手段正当」只不过是把结果主义推高一个元层级之后得到的推理。如果一个人类开始在对象层面上认为目的能证明手段正当,那么考虑到我们这套不可信的大脑,这会带来可怕的后果;因此,人类就不该这样想。但归根结底,这依然全都是结果主义。只不过,这是给那些知道自己每时每刻的决策都是由不可信硬件作出的存在所准备的反思性结果主义