真正的囚徒困境
❦
有一天我忽然意识到,对囚徒困境的标准化可视化,其实是虚假的。
囚徒困境的核心,是下面这个对称的收益矩阵:
| | 1 : C | 1 : D |
||
| 2 : C | (3, 3) | (5, 0) |
| 2 : D | (0, 5) | (2, 2) |
玩家 1 和玩家 2 都可以选择 C 或 D。最终结果中,玩家 1 与玩家 2 的效用,分别由数对中的第一个数与第二个数给出。出于稍后就会明白的原因,C 代表“合作(cooperate)”,而 D 代表“背叛(defect)”。
注意,在这个博弈中,一个玩家(把自己看作第一个玩家)对结果的偏好排序是:(D,C) > (C,C) > (D,D) > (C,D)。
看起来,选项 D 支配 C:如果另一个玩家选择 C,你会更喜欢 (D,C) 而不是 (C,C);如果另一个玩家选择 D,你会更喜欢 (D,D) 而不是 (C,D)。所以你明智地选择 D;而由于收益表是对称的,另一个玩家同样也会选择 D。
要是你们俩都没那么明智就好了!你们都更偏好 (C,C) 而不是 (D,D)。也就是说,你们都更喜欢相互合作,而不是相互背叛。
囚徒困境是决策理论中最伟大的基础问题之一,围绕它已经写出了海量材料。因此,我竟然断言:囚徒困境通常的可视化方式存在严重缺陷——至少如果你碰巧是个人类——这就显得相当大胆。
囚徒困境的经典可视化是这样的:你是个罪犯,而你和你的犯罪同伙都已经被当局抓住了。
你们彼此独立地、不能沟通地,而且事后也不能反悔地,必须决定是出庭作证指控你的同伙(D),还是保持沉默(C)。
你们两人现在都面临 1 年监禁;作证(D)会让你的刑期减少 1 年,同时让你同伙的刑期增加 2 年。
或者,也可以是你和某个陌生人只在这一次、既不知道对方过往历史、事后也不会知道对方是谁的情况下,决定是玩 C 还是 D,而收益则按标准图表中的美元数额发放。
还有,哦,对了——在经典可视化里,你还得假装自己是完全自私的,也就是你根本不在乎你的犯罪同伙,或者另一个房间里的那位玩家。
在我看来,正是最后这一条设定,让经典可视化成了假的。
你没法仅靠命令陪审团假装不知道一系列事件的真实结果,就避免后见之明偏差。同样,如果没有以相当知识为支撑的复杂努力,一个神经系统完好的正常人类,也不可能假装自己是真正、彻底、完全自私的。
我们生来就带着公平感、荣誉感、共情、同情,甚至利他倾向——这是我们的祖先为适应重复囚徒困境(iterated Prisoner’s Dilemma)而演化出的结果。我们并不是真正、彻底、绝对地偏好 (D,C) 胜过 (C,C),尽管我们也许确实会完全偏好 (C,C) 胜过 (D,D),并偏好 (D,D) 胜过 (C,D)。想到我们的同伙要在监狱里多蹲 3 年,这件事并不是完全无法打动我们。
在那间上锁的房间里,我们在经济心理学家的监督下玩一个简单游戏时,也并不是对那个可能会合作的陌生人完全、绝对没有同情。想到自己也许会背叛而陌生人合作、自己拿到 5 美元而对方一无所获,这并不会让我们感到彻底心安理得。
我们会本能地盯住 (C,C) 这个结果,并试图寻找论证,说明它应该成为双方共同的决定:「我们怎样才能确保相互合作?」这是本能反应。而不是「我怎样才能骗另一个玩家出 C,同时我自己出 D 以拿到最大收益?」
对于一个带有利他、荣誉或公平冲动的人来说,囚徒困境其实并不真正拥有那个关键收益矩阵——不管个体在金钱上能得到什么收益。结果 (C,C) 比结果 (D,C) 更可取,关键问题只是另一个玩家是否也这样看。
而且,不,你没法要求那些刚接触博弈论的人假装自己完全自私——正如你也没法要求那些刚接触拟人化的人类,假装自己是期望回形针最大化器。
要构造真正的囚徒困境,情形就必须更像下面这样:
玩家 1:人类、Friendly AI(友好型 AI),或其他人道的智能。
玩家 2:Unfriendly AI(不友好 AI),或者某个只在乎把卵石分进正确的堆里的外星人。
假设现在有 40 亿人类——不是整个人类物种,但也是其中相当大的一部分——正患着一种致命疾病,而唯一的治愈方法是物质 S。
然而,物质 S 只能通过与另一个维度的回形针最大化器合作来生产——而物质 S 也可以被用来生产回形针。这个回形针最大化器只在乎它自己宇宙里的回形针数量,不在乎我们宇宙里的回形针,所以我们没法提出帮它在这里生产回形针,也没法威胁在这里摧毁回形针。我们此前从未和这个回形针最大化器互动过,今后也永远不会再与它互动。
就在维度枢纽坍塌之前,人类与这个回形针最大化器都各自会获得一次机会,去为自己夺取额外的一部分物质 S;但夺取过程会毁掉一部分物质 S。
收益矩阵如下:
| | 1 : C | 1 : D |
||
| 2 : C | (+20 亿人类获救,
+2 枚回形针) | (+30 亿人类获救,
+0 枚回形针) |
| 2 : D | (+0 人获救,
+3 枚回形针) | (+10 亿人类获救,
+1 枚回形针) |
我特意选择这个收益矩阵,就是为了让人一想到:回形针最大化器竟想拿数十亿人类生命去换区区几枚回形针,就会生出一种愤慨。显然,回形针最大化器就应该把全部物质 S 都让给我们。但回形针最大化器不会去做它应该做的事;它只会最大化回形针。
在这个案例里,抛开导致结果的行动不谈,我们确实就是更偏好结果 (D,C) 而不是结果 (C,C)。我们会压倒性地更想生活在这样一个宇宙里:30 亿人类的病被治好,同时没有生产出任何回形针;而不是为了生产 2 枚回形针,牺牲 10 亿人类的生命。在这种情况下,合作看起来并不正确。它甚至看起来也不公平——我们付出这么巨大的牺牲,换来的却只是回形针最大化器那么一点点收益?并且,让我们再明确规定:这个回形针行动者既不会体验痛苦,也不会体验快乐——它只会输出那些让它自己的宇宙包含更多回形针的行动。这个回形针行动者不会因为得到回形针而感到快乐,也不会因为失去回形针而感到受伤;如果我们背叛它,它也不会有任何痛苦的被背叛感。
那你这时会怎么做?当你真的、明确地、确实地、绝对地想要自己能拿到的最高回报,而相比之下你一点也不在乎另一个玩家会遭遇什么时,你还会合作吗?当即使另一个玩家合作,背叛看起来也仍然是正确的时候呢?
这才是真正囚徒困境的收益矩阵该有的样子——一种在其中,(D,C) 看起来比 (C,C) 更正确的情形。
但其余所有逻辑——关于如果两个行动者都这样想、并且都选择背叛,会发生什么的一切——都是一样的。因为回形针最大化器对人类的死亡、人类的痛苦、或者人类的背叛感,和我们对回形针一样毫不在乎。可我们双方都还是更偏好 (C,C) 而不是 (D,D)。
所以,如果你曾因自己在囚徒困境里选择合作而自豪……或者曾质疑经典博弈论那个说选择背叛才是「理性」之选的判决……那么,面对上面这个真正的囚徒困境,你又会怎么说?
P.S.: 事实上,我并不认为理性行动者在一次性的囚徒困境中总该选择背叛,尤其是在另一个玩家如果预期你也会合作、就会选择合作的情况下。我认为,确实存在某些情形,使得两个行动者能够理性地达成 (C,C) 而不是 (D,D),并收获与之相应的好处。1
等我讨论纽科姆问题时,我会解释一部分自己的推理。不过,在我们先摆脱那种对 (C,C) 结果本身就是美好或善良的直觉感受之前,我们还没法讨论在这个困境里理性合作是否可能。如果我们想把握这里面的数学结构,就必须看穿「相互合作」这个亲社会标签背后的直觉诱导。如果从玩家 1 的视角出发,你能直觉到 (C,C) 胜过 (D,D),却直觉不到 (D,C) 也胜过 (C,C),那你就还没有真正领会这个问题为什么困难。
Eliezer Yudkowsky,Timeless Decision Theory,未发表手稿(Machine Intelligence Research Institute,Berkeley,CA,2010),http://intelligence.org/files/TDT.pdf。 ↩︎