真正的囚徒困境

❦

有一天我忽然意识到，对囚徒困境的标准化可视化，其实是虚假的。

囚徒困境的核心，是下面这个对称的收益矩阵：

| | 1 : C | 1 : D |

| 2 : C | (3, 3) | (5, 0) |

| 2 : D | (0, 5) | (2, 2) |

玩家 1 和玩家 2 都可以选择 C 或 D。最终结果中，玩家 1 与玩家 2 的效用，分别由数对中的第一个数与第二个数给出。出于稍后就会明白的原因，C 代表“合作（cooperate）”，而 D 代表“背叛（defect）”。

注意，在这个博弈中，一个玩家（把自己看作第一个玩家）对结果的偏好排序是：(D,C) > (C,C) > (D,D) > (C,D)。

看起来，选项 D 支配 C：如果另一个玩家选择 C，你会更喜欢 (D,C) 而不是 (C,C)；如果另一个玩家选择 D，你会更喜欢 (D,D) 而不是 (C,D)。所以你明智地选择 D；而由于收益表是对称的，另一个玩家同样也会选择 D。

要是你们俩都没那么明智就好了！你们都更偏好 (C,C) 而不是 (D,D)。也就是说，你们都更喜欢相互合作，而不是相互背叛。

囚徒困境是决策理论中最伟大的基础问题之一，围绕它已经写出了海量材料。因此，我竟然断言：囚徒困境通常的可视化方式存在严重缺陷——至少如果你碰巧是个人类——这就显得相当大胆。

囚徒困境的经典可视化是这样的：你是个罪犯，而你和你的犯罪同伙都已经被当局抓住了。

你们彼此独立地、不能沟通地，而且事后也不能反悔地，必须决定是出庭作证指控你的同伙（D），还是保持沉默（C）。

你们两人现在都面临 1 年监禁；作证（D）会让你的刑期减少 1 年，同时让你同伙的刑期增加 2 年。

或者，也可以是你和某个陌生人只在这一次、既不知道对方过往历史、事后也不会知道对方是谁的情况下，决定是玩 C 还是 D，而收益则按标准图表中的美元数额发放。

还有，哦，对了——在经典可视化里，你还得假装自己是完全自私的，也就是你根本不在乎你的犯罪同伙，或者另一个房间里的那位玩家。

在我看来，正是最后这一条设定，让经典可视化成了假的。

你没法仅靠命令陪审团假装不知道一系列事件的真实结果，就避免后见之明偏差。同样，如果没有以相当知识为支撑的复杂努力，一个神经系统完好的正常人类，也不可能假装自己是真正、彻底、完全自私的。

我们生来就带着公平感、荣誉感、共情、同情，甚至利他倾向——这是我们的祖先为适应重复囚徒困境（iterated Prisoner’s Dilemma）而演化出的结果。我们并不是真正、彻底、绝对地偏好 (D,C) 胜过 (C,C)，尽管我们也许确实会完全偏好 (C,C) 胜过 (D,D)，并偏好 (D,D) 胜过 (C,D)。想到我们的同伙要在监狱里多蹲 3 年，这件事并不是完全无法打动我们。

在那间上锁的房间里，我们在经济心理学家的监督下玩一个简单游戏时，也并不是对那个可能会合作的陌生人完全、绝对没有同情。想到自己也许会背叛而陌生人合作、自己拿到 5 美元而对方一无所获，这并不会让我们感到彻底心安理得。

我们会本能地盯住 (C,C) 这个结果，并试图寻找论证，说明它应该成为双方共同的决定：「我们怎样才能确保相互合作？」这是本能反应。而不是「我怎样才能骗另一个玩家出 C，同时我自己出 D 以拿到最大收益？」

对于一个带有利他、荣誉或公平冲动的人来说，囚徒困境其实并不真正拥有那个关键收益矩阵——不管个体在金钱上能得到什么收益。结果 (C,C) 比结果 (D,C) 更可取，关键问题只是另一个玩家是否也这样看。

而且，不，你没法要求那些刚接触博弈论的人假装自己完全自私——正如你也没法要求那些刚接触拟人化的人类，假装自己是期望回形针最大化器。

要构造真正的囚徒困境，情形就必须更像下面这样：

玩家 1：人类、Friendly AI（友好型 AI），或其他人道的智能。

玩家 2：Unfriendly AI（不友好 AI），或者某个只在乎把卵石分进正确的堆里的外星人。

假设现在有 40 亿人类——不是整个人类物种，但也是其中相当大的一部分——正患着一种致命疾病，而唯一的治愈方法是物质 S。

然而，物质 S 只能通过与另一个维度的回形针最大化器合作来生产——而物质 S 也可以被用来生产回形针。这个回形针最大化器只在乎它自己宇宙里的回形针数量，不在乎我们宇宙里的回形针，所以我们没法提出帮它在这里生产回形针，也没法威胁在这里摧毁回形针。我们此前从未和这个回形针最大化器互动过，今后也永远不会再与它互动。

就在维度枢纽坍塌之前，人类与这个回形针最大化器都各自会获得一次机会，去为自己夺取额外的一部分物质 S；但夺取过程会毁掉一部分物质 S。

收益矩阵如下：

| | 1 : C | 1 : D |

| 2 : C | (+20 亿人类获救，

+2 枚回形针) | (+30 亿人类获救，

+0 枚回形针) |

| 2 : D | (+0 人获救，

+3 枚回形针) | (+10 亿人类获救，

+1 枚回形针) |

我特意选择这个收益矩阵，就是为了让人一想到：回形针最大化器竟想拿数十亿人类生命去换区区几枚回形针，就会生出一种愤慨。显然，回形针最大化器就应该把全部物质 S 都让给我们。但回形针最大化器不会去做它应该做的事；它只会最大化回形针。

在这个案例里，抛开导致结果的行动不谈，我们确实就是更偏好结果 (D,C) 而不是结果 (C,C)。我们会压倒性地更想生活在这样一个宇宙里：30 亿人类的病被治好，同时没有生产出任何回形针；而不是为了生产 2 枚回形针，牺牲 10 亿人类的生命。在这种情况下，合作看起来并不正确。它甚至看起来也不公平——我们付出这么巨大的牺牲，换来的却只是回形针最大化器那么一点点收益？并且，让我们再明确规定：这个回形针行动者既不会体验痛苦，也不会体验快乐——它只会输出那些让它自己的宇宙包含更多回形针的行动。这个回形针行动者不会因为得到回形针而感到快乐，也不会因为失去回形针而感到受伤；如果我们背叛它，它也不会有任何痛苦的被背叛感。

那你这时会怎么做？当你真的、明确地、确实地、绝对地想要自己能拿到的最高回报，而相比之下你一点也不在乎另一个玩家会遭遇什么时，你还会合作吗？当即使另一个玩家合作，背叛看起来也仍然是正确的时候呢？

这才是真正囚徒困境的收益矩阵该有的样子——一种在其中，(D,C) 看起来比 (C,C) 更正确的情形。

但其余所有逻辑——关于如果两个行动者都这样想、并且都选择背叛，会发生什么的一切——都是一样的。因为回形针最大化器对人类的死亡、人类的痛苦、或者人类的背叛感，和我们对回形针一样毫不在乎。可我们双方都还是更偏好 (C,C) 而不是 (D,D)。

所以，如果你曾因自己在囚徒困境里选择合作而自豪……或者曾质疑经典博弈论那个说选择背叛才是「理性」之选的判决……那么，面对上面这个真正的囚徒困境，你又会怎么说？

P.S.: 事实上，我并不认为理性行动者在一次性的囚徒困境中总该选择背叛，尤其是在另一个玩家如果预期你也会合作、就会选择合作的情况下。我认为，确实存在某些情形，使得两个行动者能够理性地达成 (C,C) 而不是 (D,D)，并收获与之相应的好处。1

等我讨论纽科姆问题时，我会解释一部分自己的推理。不过，在我们先摆脱那种对 (C,C) 结果本身就是美好或善良的直觉感受之前，我们还没法讨论在这个困境里理性合作是否可能。如果我们想把握这里面的数学结构，就必须看穿「相互合作」这个亲社会标签背后的直觉诱导。如果从玩家 1 的视角出发，你能直觉到 (C,C) 胜过 (D,D)，却直觉不到 (D,C) 也胜过 (C,C)，那你就还没有真正领会这个问题为什么困难。

Eliezer Yudkowsky，Timeless Decision Theory，未发表手稿（Machine Intelligence Research Institute，Berkeley，CA，2010），http://intelligence.org/files/TDT.pdf。 ↩︎

Thoughts Memo 翻译合集

真正的囚徒困境