那一丝微小的不谐音

❦

上回我们讲到 Eliezer1997 时，他相信：任何超级智能都会自动去做「正确」的事，而且确实会比我们更明白什么是正确——尽管他也谦逊地承认，自己并不理解道德的终极本性。更准确地说，在经过一番争论之后，Eliezer1997 发展出了一套繁复的论证，并喜滋滋地声称那是「形式化」的：我们总可以以「生命有意义」这一信念为条件；因此，那些超级智能不会被驱使去做任何特定事情的情形，就可以被排除在考虑之外。（其中的漏洞在于：他未经考虑、也没有正当化地把「普遍令人信服的论证」等同于「正确」。）

到这里，年轻的 Eliezer 已经很接近加入那个「聪明人因擅长为自己以拙劣理由得出的信念辩护而显得愚蠢」的俱乐部了。他对「理性」的全部投入，并没有把他从这个错误里救出来，而你或许会因此想要下结论：追求理性这件事毫无用处。

但虽然很多人会给自己挖坑，不是每个人都能成功从坑里再爬出来。

而我从中学到的教训是：一切的开端，都始于——

——一个小小的问题；一个单独的不和谐音；一个微小而孤独的念头……

当我们的故事开始时，时间向前推进三年，来到 Eliezer2000。他在大多数方面都与 1997 年的自己相似。此刻，他认为自己已经证明：如果世上存在任何正确之事，那么建造超级智能就是正确之事。由此便推出，在地球上的诸民族与诸个人之间，围绕智能爆炸并不存在可正当化的利益冲突。

这个结论对 Eliezer2000 很重要，因为他觉得围绕智能爆炸展开争斗这一念头愚蠢得令人无法忍受。（有点像神会介入那些争吵不休的蛮族部落之间的战争这种想法，只不过方向相反。）Eliezer2000 的自我概念不允许他——他甚至不想——耸耸肩说：「好吧，反正是我们这边先到了，所以在别人拿到之前，我们就先去夺下香蕉。」这个念头痛苦到难以去想。

但接着，一个念头忽然击中了他：

也许有些人会希望 AI 去做某些特定的事，比如不要杀掉他们，即使生命并没有意义？

紧接着，他冒出的下一个念头，以他的前提来看，显然也是顺理成章的：

如果生命没有意义，那么就没有什么事情是「正确」的；因此，在这种情形下尊重人们的偏好，也并不会特别正确。

这是个显而易见的闪避动作。问题在于，Eliezer2000 并不把自己看成反派。他不会到处说：「今天我要躲开什么子弹呢？」他把自己视为一个尽职的理性主义者，会顽强地追踪思路。后来，他将会回头看见，原来有整整一大串思路，他的心智不知怎么就设法没去追下去——但那并不是他此刻的自我概念。

所以，Eliezer2000 并没有直接抓住这个显而易见的退路。他继续想了下去。

但如果人们相信，即使在生命没有意义的情况下他们也依然有自己的偏好，那么他们就有动机去反对我的智能爆炸计划，转而支持某个会在生命没有意义时尊重他们意愿的计划。这就造成了当下围绕智能爆炸的利益冲突，并阻止了那些在主线情形——也就是生命有意义时——本该被完成的正确之事。

现在，Eliezer2000 本来有很多借口，可以把这个问题直接扔出窗外。我知道这一点，因为我听过太多用来 dismiss Friendly AI 问题的借口了。「这个问题太难，根本解不出来」——这话我常从那些 AGI wannabe 那里听到；他们想象自己聪明到足以创造真正的人工智能，却又没聪明到足以解决像 Friendly AI 这样真正困难的问题。又或者，「考虑这种可能性会是资源的糟糕使用方式，毕竟在创造 AI 上已经有如此惊人的紧迫性——在人类毁灭自己之前，你只能拿现有的东西上」，这通常出自那些其实根本就对这个问题不感兴趣的人。

但 Eliezer2000 是个完美主义者。显然，他并不完美，而且他也没有像我如今这样，把精确这种美德看得那么重要；但毫无疑问，他确实是个完美主义者。他所信奉的那套元伦理学，在其中超级智能会比我们更懂什么是正确之事，而这套理论此前看起来像是已经把一切关于正义与道德的问题都严丝合缝地包裹起来了。

这个新的反对意见，似乎在这层严丝合缝的包裹上戳出了一个小孔。这值得被修补。如果你手里已经有了某样完美之物，你难道真会让这么一点小小可能性把它破坏掉吗？

所以，Eliezer2000 甚至不想放下这个问题；他想修补这个漏洞，恢复完美。那么他要如何为自己花这份时间辩护？他会去想这样的念头：

Brian Atkins 怎么办？[Brian Atkins 是机器智能研究所（Machine Intelligence Research Institute）当时的创业资助人；那时候它还叫奇点研究所（Singularity Institute）。] 即便生命没有意义，他大概也还是会希望自己别死。现在正是他在为 MIRI 提供资金；我不想让我们合作中的伦理受污染。

Eliezer2000 的这种情感不太容易翻译成别的语言——英语里没有一个简单说法，我所知道的其他文化里似乎也没有。也许可以类比《旧约》里那句话：「不可用山羊羔母亲的奶煮山羊羔。」一个出于利他而帮助你的人，不应该因为帮了你而后悔；你欠他们的，与其说是忠诚，不如说是：当他们帮助你时，他们以为自己在做的那件事，确实就是他们实际上在做的那件事。

可是，如果我不告诉 Brian Atkins，他又怎么会发现呢？Eliezer2000 连这个念头本身，甚至都不会真的去想，只是把它当作一个反派在同样情形下会想到的显然念头，放在引号里瞥上一眼。而 Eliezer2000 也早就为此准备好了一条标准反制思路，一道用来抵御不诚实诱惑的护符——一套用期望效用来为诚实辩护的论证，而不只是出于对个人美德的私人偏爱：

人类并不是完美的欺骗者；我很可能会被发现。又或者，如果在奇点到来之前的未来三十年里，真正的测谎仪被发明出来怎么办？我没法通过测谎测试。

Eliezer2000 遵循这样一条规则：你应该随时都准备好让自己的想法被广播给全世界，而且不因此感到羞耻。否则，很显然，你就已经失落了恩典：要么是你在想某些你不该想的事，要么是你在为某些本不该让你羞耻的事感到羞耻。

（这些年里，我已经不再主张这样一种极端的观点了，主要是出于乐趣理论（Fun Theory）的缘故。在至少我目前可见的近期图景里，我认为智能生命形式之间持续存在某种社会竞争，是有其角色的。如今我承认，人类也许拥有一个自我并没有什么问题；正如 John McCarthy 所说：「如果每个人都一直只为别人而活，生活就会像一队蚂蚁彼此首尾相随地绕圈打转。」如果你要有一个自我，那你不妨也拥有秘密，甚至也许还包括某些密谋。但在专业议题上，只要对方也愿意接受测谎，我仍会尽量遵守这样一条原则：自己应当能够通过未来的测谎测试。至于乐趣理论，则需要在全球灾难性风险管理问题上留出一个符合常识的例外。）

即便先把诚实视为当然成立，Eliezer2000 也还有别的借口，可以把这个问题冲进马桶里。「世界没有这个时间」或者「它无解」依然都能用。可 Eliezer2000 并不知道这个问题——这个「后备道德」问题——会特别困难，或者特别耗时。他直到此刻才刚刚想到整件事。

于是，Eliezer2000 开始真正去思考这个问题：假设「生命没有意义」（也就是说，超级智能不会仅凭纯粹逻辑就产生自己的动机），那你要如何去规定一种后备道德？如何综合它，把它铭写进 AI 之中？

在这一点上，Eliezer2000 还有很多东西不知道。但他已经思考自我改进 AI 三年了，而且在那之前更早就是个传统理性主义者。他已经练过一些理性技艺，也已经设计出了一些方法论上的防护措施。他早就知道，不能以为 AI 只需要一个唯一伟大道德原则就够了。Eliezer2000 也早已知道：从技术上思考，比从政治上思考更明智。他也知道那句老话：AI 程序员应该用代码来思考，应该使用那些能被铭写进计算机里的概念。Eliezer2000 也早已有了一个概念：存在某种叫作「技术性思考」的东西，而且那是好的，尽管他那时还没有形成关于它的贝叶斯视角。他也早就注意到，那些带有暗示性命名的 LISP 记号并不真的意味着什么，诸如此类。这些戒律阻止了他掉进某些最初级的陷阱里——那些我曾见过吞掉其他新手的陷阱；他们在第一次踏入 Friendly AI 问题时就被吞没了……不过严格来说，这已经是我的第二步；在第一步上，我确确实实地失败了。

但归根结底，事情其实就是这样：Eliezer2000 第一次开始尝试以技术性的方式去思考，如何把一种道德铭写进 AI，而不再借助那条「正确性的神秘本质」的逃生通道。

说到最后，真正重要的只有这一点。他先前那些哲学化的思考，并不足以迫使他的大脑去直面细节。这个新标准严格到了足以要求真实劳动的地步。道德开始慢慢在他面前变得不那么神秘——Eliezer2000 开始在那个黑箱内部思考了。

至于推动他走上这条路的那些理由——它们其实根本无关紧要。

哦，完美主义这一点当然有教训可学。Eliezer2000 起初以为这只是个小瑕疵，而且如果他的冲动是那样的话，他本来完全可以把它从脑海里赶走——这一点也有教训可学。

但说到底，因果链条其实是这样的：Eliezer2000 更深入地展开了调查，因此他在练习中变得更强了。行动会屏蔽正当化理由。如果你的论证碰巧足以为「不去把事情详细推演清楚」提供正当性，就像 Eliezer1996 那样，那么你就永远不会真正擅长思考这个问题。如果你的论证要求你把事情详细推演清楚，那么你就得到了一个机会，开始积累专长。

到头来，真正重要的也只有这一个选择——不是做某件事的理由。

我之所以说这一切，你大概也猜得到，是因为我偶尔会遇到一些 AGI wannabe；他们为自己不去思考 Friendly AI 问题，准备了各式各样聪明的理由。我们那些为自己行动辩护的聪明理由，对自然的重要性，往往远小于它们对我们自己以及朋友的重要性。如果把你的行动剥光一切正当化理由，只作为赤裸裸的事实呈现出来时，它们看上去并不好……那你也许就该重新检查它们。

勤奋努力并不总能救一个人。能力不足这种事确实存在。即便如此，如果你不试，或者试得不够狠，你连坐到那张高赌注牌桌前的机会都没有——更别说能力这份入场底注了。因果关系就是这样运作的。

另外，完美主义真的非常重要。世界末日并不总伴随着号角、雷霆，以及你收件箱里最高优先级的提醒。有时，那道粉碎性的真相最初呈现在你面前的方式，只是一个小小的问题；一个单独的不和谐音；一个微小而孤独的念头，而你本可以轻而易举地、毫不费力地一把将它挥开……

……于是，随着后来的岁月一天天过去，理解开始在那个过去的 Eliezer 身上缓缓破晓。那轮太阳升起的速度，本还可以更快一些。

Thoughts Memo 翻译合集

那一丝微小的不谐音