退相干很简单

❦

写给物理学家们的一封信：

当我还是个小男孩时，我父亲——一位物理学博士——曾严厉地警告我，不要插手物理学家的事务；他说，要是不掌握形式化数学，就根本不可能理解物理。句号。没有任何例外条款。但我曾在 Feynman 的科普书里读到，如果你真的理解了物理，你就应该能把它解释给非物理学家听。于是我相信了 Feynman，而不是我父亲，因为 Feynman 拿过诺贝尔奖，而我父亲没有。

直到后来——确切地说，是在我读 The Feynman Lectures 的时候——我才意识到，我父亲给我的其实是一个简单而诚实的真相。没有数学 = 没有物理。

我的职业是做贝叶斯主义者，不是做物理学家。然而，尽管我从小被教育不要插手物理学家的事务，但由于有些人偶尔会严重误用三个术语：简单、可证伪和可检验，我还是不得不出手。

前面这段引子，是为了让你别笑着说：「这些词的意思我当然知道！」这里面是有数学的。接下来我要做的，是把对被蕴含的不可见之物的信念中的论点重新陈述一遍，并把它们应用到量子物理上。

让我们从一句让我沿着这整条思路一路走下去的话开始吧；我见过它的好几个版本，意译大致如下：

量子力学的多世界解释主张，在我们的世界旁边还并存着大量其他世界。奥卡姆剃刀说，如无必要，不应增添实体。

现在，公平地说，讲这话的人通常也会承认：

但这并不是奥卡姆剃刀的一种普遍接受的用法；有些人认为，奥卡姆剃刀应当作用于支配模型的定律，而不是模型内部对象的数量。

所以，大家都承认存在相反的论点，并把故事的两面都说出来了，这很好——

但假如你必须计算一个理论的简单性呢？

William of Ockham 最初的表述是：

Lex parsimoniae: Entia non sunt multiplicanda praeter necessitatem.

「简约法则：如无必要，不应增添实体。」

但这只是定性的建议。光说某个理论看起来比另一个更简单，或者看起来更复杂，是不够的——你得给出一个数字；而且这个数字还必须有意义，不能随便编。跨越这道鸿沟，就像你能大致看出什么东西移动得「快」或「慢」，与开始真正测量并计算速度之间的差别。

假设你试着说：「数单词——这就是一个理论有多复杂的办法。」

Robert Heinlein 曾经声称（我希望只是开玩笑地声称），“最简单的解释”永远都是：“街那头那个女人是个女巫；是她干的。” 十一个词——没多少物理论文能比这更短。

面对这个挑战，你可以走两条不同的路。

第一，你可以问：「街那头那个女人是个什么？」英语里有一个词指代某个概念，并不意味着这个概念本身就简单。假设你是在和外星人说话，而他们既不知道女巫，也不知道女人，更不知道街道——你要花多长时间才能把你的理论解释给他们听？更进一步地说，假设你必须写一个体现你这个假说的计算机程序，并输出你所说的这个假说的预测——那个程序得有多大？设想你的任务是预测一块石头从山坡上滚下时，其测得位置随时间变化的序列。如果你写了一个模拟女巫的子程序，这看起来并不能帮助你缩小石头会滚到哪里的范围——这个额外子程序只会让你的代码变得更臃肿。不过，你也许会发现，你的代码里必然包含一个对数字求平方的子程序。

第二，你可以问：「街那头那个女人是个女巫；她到底做了什么？」假设你想尽可能精确地描述某个事件——在现有证据允许的范围内；还是以一块石头从山坡上滚下的距离—时间序列为例。你可以先在解释前面加上一句：「街那头那个女人是个女巫，」但你的朋友接着问：「她做了什么？」于是你回答：「她让石头在第一秒后滚了一米，在第三秒后滚了九米……」在你的消息前面加上「街那头那个女人是个女巫」这句话，并不能帮助你去压缩剩下的描述。总体来说，你只是发送了一条比必要更长的消息——还不如把「女巫」这个前缀干脆去掉。另一方面，如果你先花一点时间谈谈 Galileo，你接下来也许就能把五千条关于石头滚下山坡的详细时间序列大幅压缩。

如果你沿第一条路走，就会得到所谓的 Kolmogorov 复杂度和 Solomonoff 归纳。如果你沿第二条路走，就会得到所谓的最小消息长度（Minimum Message Length）。

啊，所以关于“简单”的定义，我可以随便挑自己喜欢的？

不，其实不是。这两种形式体系在其发展最完备的形式下，已经被证明是等价的。

那我猜你接下来要告诉我，这两种形式体系最后都站在“奥卡姆应该数定律，而不是数对象”这一边。

差不多吧。在最小消息长度里，只要你能告诉朋友一个他们可以在脑中照着执行的精确配方，从而得到滚石的时间序列，我们就不在乎照着这个配方做需要多少心理劳动。在 Solomonoff 归纳里，我们数的是程序代码里的比特，而不是程序运行时占用的 RAM 比特。「实体」是代码行，而不是被模拟出来的对象。而且正如前面所说，这两种形式体系最终是等价的。

现在，在我进一步谈形式化的简单性之前，让我先岔开一下，考虑这样一个反对意见：

那又怎样？为什么我不能自己发明一套形式体系，让它按不同方式运作？我为什么非得在意你们那个领域里碰巧决定采用的做法？你有什么实验证据，能证明我应该这样做吗？

有，真的，信不信由你。不过先让我从头说起。

概率论中的合取规则表明：

P(X,Y) ≤ P(X) .

对于任意命题 X 和 Y，命题「X 为真，且 Y 为真」的概率，小于或等于命题「X 为真（不论 Y 是否为真）」的概率。（如果这句话听上去并没有多么深刻，那我得提醒你：很容易找到人类概率评估者违背这条规则的案例。）

你通常不能把合取规则 P(X,Y) ≤ P(X) 直接应用到互斥假说之间的冲突上。合取规则只能直接用于左边严格蕴含右边的情形。此外，合取本身只给出一个不等式；它并不能给我们想要的那种定量计算。

但合取规则确实给出了一个关于概率单调递减的规则：当你不断往一个故事里添加更多细节，而每个新增细节都可能真也可能假时，这个故事的概率就会单调下降。把概率想象成一种守恒量：可分配的总量只有这么多。随着一个故事里的细节数增加，可能的故事数量会指数增长，但它们概率的总和永远不可能大于 1。对每一个「X 且 Y」的故事，都有一个「X 且 ¬Y」的故事。当你只是讲「X」这个故事时，你就可以对 Y 和 ¬Y 这两种可能性求和。

如果你给 X 再加上十个细节，而每个细节都可能真也可能假，那么这个故事就必须与另外 2^10 − 1 个同样细致的故事争夺宝贵的概率。反过来，如果只说 X 就已经足够，那么你就可以把自己的概率加总到 2^10 个故事上

（（X 且 Y 且 Z 且……）或（X 且 ¬Y 且 Z 且……）或……）。

奥卡姆剃刀所计算的「实体」，应该是那些单独拿出来就要付出概率代价的东西；这就是为什么我们偏好拥有更少此类实体的理论。

想象一个彩票，最多卖出一百万张票，而且每种可能的票只卖一次；开奖时，这种彩票恰好把所有票都卖完了。你有个朋友花 1 美元买了一张票——在你看来，这似乎是笔糟糕的投资，因为奖金只有 500,000 美元。可你的朋友说：「啊，但请比较两个备选假说：『明天，会有人中彩票』和『明天，我会中彩票。』显然，后一个假说按奥卡姆剃刀来看更简单；它只提到了一个人和一张票，而前一个假说更复杂：它提到了一百万人和一百万张票！」

说奥卡姆剃刀只数定律、不数对象，并不完全准确：真正会拖累一个理论的，是它必须显式提到的那些实体，因为这些实体是无法被求和消去的。假设你和朋友正在琢磨一个惊人的台球击球：你们知道一张台球桌的初始状态，也知道哪些球落袋了，但不知道这一杆究竟是怎么打出来的。你提出一个理论，其中涉及十次特定碰撞，发生在十颗特定球之间；你的朋友则提出一个理论，只涉及五次特定碰撞，发生在五颗特定球之间。真正对你们的理论不利的，并不只是你们声称支配台球的那些定律，还包括任何那些为了让模型预测成功、就必须让某些特定台球处于某种特定状态的因素。

如果你测得起居室温度为 22 摄氏度，那么说：「你的温度计大概出错了；房间更可能其实是 20 °C。因为当你考虑房间里的所有粒子时，如果温度真是 22 °C，它们可以占据的状态在指数上要多得多——这就使任何某个特定状态都更加不可能。」——这种说法是没有意义的。因为无论你的房间占据的是哪个精确的 22 °C 状态，你都能作出同样的预测（对这些状态中的绝大多数而言）：你的温度计最后会显示 22 °C，所以你对精确的初始条件并不敏感。你并不需要指明房间里所有空气分子的精确位置，因此这部分不会被算到你解释的概率账上。

另一方面——回到彩票那个例子——假设你的朋友连续中了十次彩票。到这时候，你就该怀疑有猫腻了。假说「我朋友每次都中彩票」比假说「每次都会有人中彩票」更复杂。但前者对数据作出了精确得多的预测。

在最小消息长度的形式体系里，如果你在消息开头先说「有同一个人每次都会中彩票」，那你对接下来十次彩票中奖者的描述就会被压缩；你只需要再说一句「而那个人就是 Fred Smith」，就可以结束这条消息。相比之下，你若说的是：「第一次彩票由 Fred Smith 中奖，第二次彩票由 Fred Smith 中奖，第三次彩票又是……」

在 Solomonoff 归纳的形式体系里，「我朋友每次都中彩票」的先验概率很低，因为描述这种彩票的程序现在需要显式写出一段代码，把你的朋友单独挑出来；但因为这个程序相对于「每次都会有人中彩票」这个假说，能够对潜在中奖者给出一个更窄的概率分布，所以它可以凭借贝叶斯法则克服先验上的不大可能，并最终作为假说胜出。

任何一种关于奥卡姆剃刀的形式理论，都应当定量地定义的不仅是「实体」和「简单性」，还有「必要性」这一部分。

最小消息长度把必要性定义为「能够压缩消息的东西」。

Solomonoff 归纳会给每一个可能的计算机程序分配一个先验概率，而对所有可能程序的整个分布求和不超过 1。要做到这一点，可以使用一种二进制编码，使得任何有效程序都不是其他任何有效程序的前缀（「前缀自由码」），例如因为它包含一个停止码。那么，任意程序 P 的先验概率就只是 2−L(P)，其中 L(P) 是 P 的比特长度。

程序 P 本身可以是这样一个程序：它输入一串（长度可能为 0 的）比特串，并输出「下一个比特为 1」的条件概率；这样一来，P 就定义了一个关于所有二进制序列的概率分布。对于任意字符串，这个版本的 Solomonoff 归纳都会给出一个由后验概率混合而成的结果，而这个混合主要由那些最短、且对该字符串预测最精确的程序所支配。对这个混合求和之后，我们就得到对下一个比特的预测。

其结论是：要为更复杂的假说辩护，你需要更多的贝叶斯证据——更多成功的预测，或者更精确的预测。但这并非做不到；先验不大可能性带来的负担并不是无限的。如果你把一枚硬币抛四次，结果次次都是正面，你不会立刻得出「这枚硬币只会出正面」的结论；但如果这枚硬币连续二十次都出正面，你就该非常认真地考虑这种可能性了。那「这枚硬币被固定为按 htthtt…… 的循环模式重复出结果」这个假说呢？那就更加古怪了——但抛上一百次之后，你若仍然否认它，就太愚蠢了。

标准化学告诉我们，在一克氢气里有六千亿万亿个氢原子。这个说法令人震惊，但确实存在某个证据量，足以让一般物理学家，也让你自己，相信这是真的。

现在再问问自己：要让你相信一个拥有六千亿万亿条彼此分别指定的物理定律的理论，需要多少证据？

为什么在 Solomonoff 形式体系里，一个程序的先验概率不包括它占用多少 RAM，或者总运行时间的度量呢？

最简单的回答是：「因为程序使用的空间与时间资源，并不是彼此互斥的可能性。」这跟程序规格不同；程序规格在任何一个具体位置上只能是 1 或 0。

但更简单的回答是：「因为从历史经验看，这种启发式根本不好用。」

当年有人提出「星云其实是遥远星系」时，奥卡姆剃刀曾被拿出来反对这件事——因为这似乎大幅增加了宇宙中的实体数量。那么多恒星！

在人类历史上，宇宙一次又一次地变得更大。若有一种奥卡姆剃刀的变体，在每一次这种场合都把更广袤的宇宙判为更不可能，那它在人类历史经验中的表现就会更差。

这就是我先前暗示的那部分「实验性证据」。虽然你可以从偏数学的理由上为简单性理论辩护，但我们也希望它们在实践中确实好用。（「实验性证据」的另一部分，来自统计学家／计算机科学家／人工智能研究者：他们会测试，哪些关于「简单性」的定义，能让他们构造出在经验上善于根据过去数据预测未来数据的计算机程序。这里最有成效的大概是最小消息长度范式，因为它是思考现实世界问题的一种非常灵活的方式。）

想象一艘宇宙飞船，在盛大欢送中于你眼前升空；它加速离你而去，很快便达到 0.9 c 的速度。如果宇宙继续膨胀，而当前宇宙学认为它会如此，那么未来某一时刻会到来：按照你的现实模型，你将不再预期自己哪怕在原则上还能与这艘飞船发生相互作用；相对于你而言，它已经越过了宇宙学视界，从它出发的光子将无法再跑赢宇宙的膨胀。

你是否应该相信，这艘宇宙飞船会在越过相对于你的宇宙学视界那一刻，按字面意义、在物理上从宇宙中消失？

如果你相信奥卡姆剃刀数的是模型中的对象，那么是的，你就应该这么相信。一旦这艘飞船越过你的宇宙学视界，「飞船立刻消失」的模型，与「飞船继续前进」的模型，就会给出不可区分的预测；它们彼此之间没有任何贝叶斯证据优势。但前一个模型包含的「实体」要少得多；它不必谈及构成这艘飞船的所有夸克、电子和场。所以，假定飞船消失会更简单。

或者，你也可以这样说：「我通过大量实验，总结出了一些支配已观测粒子的定律。飞船正是由这类粒子组成的。把这些定律应用上去，我就推导出：飞船在穿过宇宙学视界之后，仍应继续前进，保持和之前相同的动量与能量；否则就会违反我在每一个可检验实例中都观察到成立的守恒定律。要假定飞船消失，我就必须再加上一条新定律：『东西一旦穿过我的宇宙学视界，就会消失。』」

量子力学的退相干版本（又名多世界）认为，测量遵守的量子力学规则，与所有其他物理过程遵守的是同一套规则。把这些规则应用到宏观物体上，方式与应用到微观物体时完全一样，我们最终就会得到处于叠加态的观察者。这里当然可以提出很多问题，比如

「但那样的话，既然不同版本的我们会看到两种结果，为什么所有二元量子测量看起来都不是 50/50 概率呢？」

然而，认为退相干因为增殖了模型中的对象而违反奥卡姆剃刀，这个反对意见纯粹就是错的。

退相干并不要求波函数采取某种复杂而精确的初始状态。多世界并不是手工把所有世界一个个指定出来，而是通过量子力学的紧凑定律生成它们。要直接模拟量子力学并作出实验预测，计算机程序在运行时确实会需要大量 RAM——但无论是哪一种量子力学，模拟波函数的代价在计算上都是指数级的！退相干只不过更甚而已。人类历史上的许多物理发现，从恒星到星系，从原子到量子力学，都大幅提高了我们所相信那个宇宙的表观 CPU 负载。

多世界并不是“有一大堆世界，所以就有一大堆复杂性”，正如原子假说也不是“有一大堆原子，所以就有一大堆复杂性”一样。对任何真正定量理解奥卡姆剃刀的人来说，「复杂」这个词根本不是这个意思。

就像历史上关于星系的案例一样，人们也许把自己对如此庞大宇宙这一观念的震惊，误当成了一种概率惩罚，并据此援引奥卡姆剃刀。但如果退相干确实要付出某种概率惩罚，那它的来源也绝不是「被蕴含出来的宇宙很大」这件事本身！

认为退相干世界是会被奥卡姆剃刀惩罚的额外实体，这种看法就是彻头彻尾地错了。它不是那种“方向大致对，但细节不对”的错误。它不是一个虽然很弱、但仍然有效的论证。它不是一种还能靠更多论据来补强的可辩护立场。作为概率论，它是完全失效的。它没法修补。它就是糟糕的数学。2 + 2 = 3。

Thoughts Memo 翻译合集

退相干很简单