伪效用函数

Fake Utility Functions

时不时地,你总会遇到某个人,声称自己发现了那个唯一伟大的道德原则,其他一切价值都只不过是它派生出来的结果。

而我遇到这类人的频率,比你高得多。只不过在我的语境里,这些人宣称自己知道那个惊人简单、只要编进人工超级智能里就能让一切顺利运转的效用函数

有些人一遇到「如何为一个超级智能编程」这个问题,就会立刻试图把它解决掉。Norman R. F. Maier 说:「在问题已经被尽可能充分地讨论、且尚未提出任何解决方案之前,不要提出解决方案。」Robyn Dawes 说:「我经常把这条戒律用在我带领的团队身上——尤其是在他们面对非常棘手的问题时;而也正是在这种时候,团队成员最容易立刻提出解决方案。」Friendly AI(友好型 AI)是一个极其困难的问题,所以人们也就以极其快的速度把它解决掉了。

我观察到的这种「迅速但错误」的解法,大体上有好几种主要类别;其中之一,就是那种「惊人简单、只要有了它,超级智能就能让一切顺利运转」的效用函数。

说不定,这个问题当初也有我一份责任:很多年前,我刚开始谈论「Friendly AI」时,选了一个非常糟糕的措辞。我曾把一个优化过程的优化标准——也就是一个行动者试图把未来导向的那个区域——称作「超级目标(supergoal)」。我原本想表达的,是 super 在「父级」意义上的用法,也就是有向无环图里一条有向边的源头。但看起来,我这种说法的实际效果,却是让一些人掉进了情感死亡螺旋里,开始想象那个史上最超级的目标、那个凌驾于一切其他目标之上的目标、那个一切伦理都可以从中推导出来的终极单一法则。

但效用函数并不一定非得简单不可。它可以包含任意多的项。我们有充分理由相信,就人类可以被说成拥有价值而言,这些价值有很多很多——也就是说,它们具有很高的 Kolmogorov 复杂度。人类大脑实现的是一千片欲望碎片;不过,如果一个人没有研究过进化心理学,他也许根本意识不到这一点。(如果你不先给出一段完整而冗长的引介,就想解释这件事,那么对方听到的多半只会是「人类在试图最大化适应度」——而这恰恰与进化心理学真正说的东西完全相反。)

就道德的描述性理论而言,人类道德的复杂性是一个已知事实。关于人类,有一个描述性的事实:父母对孩子的爱、孩子对父母的爱、男人对女人的爱,以及女人对男人的爱,并不是从彼此身上、也不是从任何其他价值上,在认知层面推导出来的。一个母亲爱自己的女儿,并不需要先做一套复杂的道德哲学,也不需要先把后果外推到某个别的可欲目标上。像这样的欲望碎片有很多,它们全都是不同的价值。

只要在一个超级智能里漏掉这些价值中的哪怕一个,哪怕你成功地纳入了其他所有价值,你最终也可能落到一种超存在性灾难(hyperexistential catastrophe)里,一种比死亡更糟的命运。如果有一个超级智能,想要替我们实现一切我们也想替自己实现的东西,除了那些与掌控自己人生、实现自己目标相关的人类价值之外,那么这就是老掉牙的反乌托邦套路之一。(这里说的是 Jack Williamson 的《With Folded Hands…》。)

那么,构造那种惊人简单效用函数的人,会怎么应对这个反对意见呢?

反对意见?反对意见? 他们为什么要去为自己可爱的理论寻找可能的反对意见呢?(请注意,寻找真实且致命的反对意见,和做一场例行公事式的搜索并神奇地只搜到那些自己能俐落回答的问题,并不是一回事。)他们根本不知道这些东西。他们没在想举证责任。他们不知道这个问题有多难。他们只是听到「超级目标」这个词,然后就围绕着「复杂性」之类的东西,一头栽进了情感死亡螺旋

如果你抓住某个具体点追问他们,比如一个母亲对孩子的爱,他们就会回答说:「可如果那个超级智能想要的是『复杂性』,它就会看出亲子关系有多复杂,因此它也会鼓励母亲去爱自己的孩子。」天哪,我该从哪里开始说起?

先从动机性停止说起:一个真的在寻找如何最大化复杂性的超级智能,不会在注意到亲子关系很复杂之后,就恰好方便地停下来。它会继续追问:有没有别的东西复杂?这是一种虚假正当化;那个试图把这个想象中的超级智能论证到某种政策选择上的人,并不是真的通过对「如何最大化复杂性」做了一次纯粹搜索,才得出那个政策提案的。

整套论证都是一种虚假道德。如果你真正重视的是复杂性,那么你为亲子之爱这项驱动所给出的正当化,就应该是指出它如何增加了复杂性。可如果你反过来,是通过声称复杂性驱动会增加亲子之爱,来为复杂性驱动辩护,那就说明你真正重视的,其实是亲子之爱。这就像你在用一套亲社会论证,去为自私辩护。

但如果你考虑一下情感死亡螺旋,那么说「母亲与女儿的关系之所以重要,只是因为它增加了复杂性;想想看,如果这种关系变得更简单,我们就不会重视它了」,并不会让「复杂性」在你心里显得更美好。真正会让「复杂性」显得更美好的,是另一种说法:「如果你着手去增加复杂性,母亲就会爱她们的女儿——看看这带来了多么正面的后果!」

每当你遇到某个道德说教者,试图说服你:他们那个伟大点子,就是任何人作出道德判断所需的一切,而且他们给出的证明是「看看这个伟大玩意儿带来了多少正面后果」,而不是「看看我们认为『正面』的这一切事物,只有在其后果是增加这个伟大玩意儿时,才是正面的」,这一点就同样适用。因为后者才是你真正必须说出来,才能支撑这种论证的东西。

但如果你想说服别人(或者说服你自己)相信:那个唯一伟大的点子就是「香蕉」,那么你靠论证香蕉如何带来更好的性生活,显然会卖出更多香蕉;而不是靠声称你只有在性生活会导向香蕉时,才应该想要性生活。

除非你已经在快乐的死亡螺旋里陷得太深,深到你真的开始说出「只有当性会导向香蕉时,性才是好的」这种话。那你就麻烦大了。不过至少,你也说服不了任何别人。

归根结底,唯一能够可靠地再生出你在既有道德之下会作出的所有局部决策的过程,就是你的道德本身。其他任何东西——任何试图用工具性手段去替代终极目的的尝试——最终都会丢失目的,并且需要无穷无尽的补丁,因为这个系统并不包含你正在对它下达那些指令的源头。你不该指望自己能把人类道德压缩成一个简单的效用函数,就像你不该指望能把一个很大的计算机文件压缩成 10 比特一样。