热力学第二定律与认知引擎

The Second Law Of Thermodynamics And Engines Of Cognition

❦

热力学第一定律，更常见的名字是能量守恒（Conservation of Energy），说的是你不能无中生有地创造能量：它禁止第一类永动机，也就是那种不消耗燃料或任何其他资源、却能一直一直运行下去的机器。按照我们现代物理学的看法，能量在粒子的每一次单独相互作用中都是守恒的。由数学归纳法可知，无论粒子集合有多庞大，它都不可能无中生有地产生能量——除非违背我们目前所相信的物理定律。

这就是为什么美国专利局会直接驳回你那个惊人巧妙的方案：一组轮子和齿轮让一个发条在另一个发条松开时继续给它上紧，于是按照你的计算，它们便能永远做功。对于这类情形，有一个完全一般性的证明：至少有一个轮子必须违背（我们标准模型中的）物理定律，这件事才可能发生。所以，除非你能解释清楚究竟是哪一个轮子违背了物理定律，否则这一整套轮组也不可能做到。

类似的论证也适用于“无反作用推进器”（reactionless drive），也就是一种违背动量守恒（Conservation of Momentum）的推进系统。在标准物理学中，动量对于每一个单独粒子及其相互作用都守恒；由数学归纳法可知，无论一个物理系统规模多大，动量都守恒。如果你能想象两个粒子相互碰撞，总动量始终与碰撞前相同，那么你也就能看出，把这个结论从粒子层面放大到一个极其庞大复杂的齿轮集合，并不会改变任何事情。就算其中涉及一万亿个一万亿个原子，0 + 0 + … + 0 仍然等于 0。

但是，能量守恒本身，并不能禁止把热转化为功。事实上，你完全可以造一个密封盒子，把冰块和储存的电力转化为温水。这甚至一点也不难。能量既不能被创造，也不能被消灭：从（冰块 + 电力）转变为（温水）的过程中，能量净变化必定为 0。因此，如果你反过来做这件事……那也并不会因此违背能量守恒本身。

第二类永动机，也就是把温水转化为电流和冰块的机器，被热力学第二定律禁止。

第二定律稍微更难理解一点，因为它在本质上带有贝叶斯色彩。

没错，真的。

支撑热力学第二定律的那个基本物理定律，是一个可以在标准物理模型内部证明出来的定理：在任何封闭系统随时间演化的过程中，相空间体积守恒。

假设你正把一个球高高举在地面上方。我们可以把这一情形描述为多维空间中的一个点，而这个空间至少有一个维度是“球离地面的高度”。然后，当你放开球，它开始运动，于是那个描述包括你和球在内的整个系统的无维点，也会在相空间中移动。在物理学的话语里，“相空间”意味着这里不仅有描述粒子位置的维度，还有描述粒子动量的维度——例如，一个由 2 个粒子构成的系统会有 12 个维度，每个粒子 3 个位置维度，再加 3 个动量维度。

如果你有一个多维空间，其中每个维度都描述一大组齿轮中某个齿轮的位置，那么当这些齿轮转动时，一个单独的点就会在一个相当高维的相空间中疾掠穿梭。也就是说，正如你可以把一个庞大复杂的机器视作一个极高维空间中的单个点一样，你也可以把描述这台机器随时间行为的物理定律，视为在描述这个点穿过相空间的轨迹。

热力学第二定律，是标准物理模型中另一个可被证明的定理的结果：如果你取相空间中的一块体积，并用标准物理学把它向前推进到未来，那么这块相空间的总体积保持不变。

例如，设有两个系统，X 和 Y，其中 X 有 8 个可能状态，Y 有 4 个可能状态，而联合系统（X,Y）有 32 个可能状态。

这个联合系统随时间的演化，可以描述为一条把初始点映射到未来点的规则。例如，系统可以从 X7Y2 出发，然后在一分钟后（在某套物理定律支配下）演化成状态 X3Y3。也就是说：如果 X 一开始处于状态 X7，而 Y 一开始处于状态 Y2，并且我们观察它 1 分钟，那么我们会看到 X 变到 X3，而 Y 变到 Y3。物理定律就是这么回事。

接下来，让我们在联合系统状态中切出一个子空间 S。子空间 S 由如下边界限定：X 处于状态 X1，而 Y 处于状态 Y1 到 Y4 之间。因此，S 的总体积是 4 个状态。

并且，让我们假设，在支配（X, Y）的物理定律下，初始处于 S 中的状态会如下演化：

| X1Y1 | → | X2Y1 |

| X1Y2 | → | X4Y1 |

| X1Y3 | → | X6Y1 |

| X1Y4 | → | X8Y1 . |

简而言之，这就是冰箱的工作方式。

子系统 X 一开始处在状态空间的一个狭窄区域里——事实上就是单一状态 X1——而 Y 一开始分布在一个更宽的区域里，即状态 Y1 到 Y4。通过相互作用，Y 进入了一个狭窄区域，而 X 则进入了一个宽广区域；但总相空间体积保持不变。四个初始状态映射到了四个终止状态。

显然，只要物理学在时间演化中保持总相空间体积守恒，你就不可能把 Y 压缩得比 X 膨胀得更厉害，反之亦然——每当你把某个子系统压进状态空间中一个更狭窄的区域，必然有另一个子系统扩张到更宽广的区域。

现在再假设，我们对联合系统（X,Y）不确定，而这种不确定性由一个在 S 上均匀分布的等概率分布来描述。也就是说，我们几乎确定 X 处于状态 X1，但 Y 处于 Y1 到 Y4 中任一状态的概率都相同。如果我们闭上眼睛一分钟再睁开，我们将预期看到 Y 处于状态 Y1，但 X 可能处于 X2 到 X8 的任一状态。实际上，X 只可能处于 X2 到 X8 中的某一些状态，但精确想清楚到底是哪几个状态成本太高了，所以我们就笼统地说是 X2 到 X8。

如果你把我们对 X 和 Y 这两个单独系统的不确定性看作 Shannon 熵，那么 X 一开始有 0 比特的熵，因为它只有一个确定状态；Y 一开始有 2 比特熵，因为它等概率地可能处于 4 个状态中的任一个。（X 与 Y 之间没有互信息。）一段物理过程发生后，瞧，Y 的熵降到了 0，而 X 的熵升到了 log2(7) = 2.8 比特。所以，熵从一个系统转移到了另一个系统，并且在 Y 子系统内部减少了；但由于记账成本的缘故，我们懒得追踪某些信息，于是（从我们的视角看）总体熵反而增加了。

假设有一个物理过程，把过去状态映射到未来状态时是这样的：

| X2Y1 | → | X2Y1 |

| X2Y2 | → | X2Y1 |

| X2Y3 | → | X2Y1 |

| X2Y4 | → | X2Y1 . |

那么你就会拥有一个实际上能够降低熵的物理过程，因为无论你从哪里出发，最后都会落到同一个地方。随时间演化的物理定律，会压缩相空间。

但是，有一个可以从我们的物理定律中证明出来的定理，即 Liouville 定理（Liouville’s Theorem），它说这种事从来不会发生：相空间是守恒的。

热力学第二定律是 Liouville 定理的一个推论：无论你的轮子和齿轮配置有多巧妙，你都不可能在不让别处熵增加的情况下，让某个子系统中的熵下降。当一个子系统的相空间收窄时，另一个子系统的相空间就必须扩大，而联合空间保持总体积不变。

只不过，最初一个紧致的相空间，可能在演化过程中长出弯弯曲曲、扭扭绕绕的褶皱；于是，如果你想给这一整团东西画一个简单边界，就不得不画出一个比先前大得多的边界——这就制造出熵似乎在增加的表象。（而在量子系统里，不同宇宙朝着不同方向分岔，所以在任何局部宇宙中熵的确会增加。不过眼下先略去这一复杂性。）

热力学第二定律其实在本性上是概率性的——如果你问，热水自发进入“冷水与电力”状态的概率是多少，那么这个概率确实存在，只是极其极其小而已。这并不意味着 Liouville 定理会以一个很小的概率被违反；定理就是定理。它的意思是：如果你一开始处在一个巨大的相空间体积里，但你不知道自己具体在哪儿，那么你就可能评估出，最终落入某个特定相空间体积的概率极小。就你所知，以无穷小的概率，这杯热水也可能恰好属于那一类会自发把自己变成电流和冰块的热水。（照例，暂不考虑量子效应。）

所以，第二定律确实在本质上是贝叶斯的。当它面对任何真实的热力学系统时，它是一个关于你对系统的信念的严格合法陈述，但对于系统本身，它只是一项概率性陈述。

“等一下，”你说，“这和我在物理课上学的不一样。”你说，“在我听过的课里，热力学讲的是，嗯，温度。不确定性是一种主观心智状态！一杯水的温度是水的客观属性！热和概率究竟有什么关系？”

哦，你这位对信任所知甚少的人。

沿着一个方向看，热与概率之间的联系相对直观：如果关于一杯水，你唯一知道的事实就是它的温度，那么相较于一杯冷水，你对一杯热水的不确定性要大得多。

热，就是大量微小分子的高速乱窜；它们越热，就能跑得越快。热水里的分子并不是全都以同样的速度运动——“温度”不是所有分子的统一速度，而是分子速度的平均值，而这个平均值又对应着一个可预测的统计速度分布——总之，重点在于：水越热，水分子可能达到的速度就越高，因此，你对任何一个单独分子的速度（不仅是速率，还有方向）的不确定性也就越大。当你把自己对所有单个分子的不确定性乘在一起，你对整杯水的不确定性就会呈指数级增加。

我们对这个指数级不确定体积取对数，并把它称作熵。你看，这样一来，一切就都对上了。

反过来的那层联系就不那么显然了。假设有一杯水，起初你对它所知仅有：它的温度是 72 度。然后，突然之间，Laplace 圣人向你揭示了水中所有原子的精确位置和速度。现在你对这杯水的状态已完全知晓，因此，按照信息论对熵的定义，它的熵是 0。那它的热力学熵也会变成 0 吗？会因为我们更了解这杯水，它就变冷了吗？

先暂时忽略量子性，答案是：会！会的！

Maxwell 曾问过：为什么我们不能把一团温度均匀的气体分成两个体积 A 与 B，并只允许高速分子从 B 通过到 A，同时只允许低速分子从 A 通过到 B 呢？如果你能造出这样一道门，很快你就在 A 一侧得到热气体，而在 B 一侧得到冷气体。这不就是给食物制冷的一种廉价方法吗？

那个检查每一个气体分子、并决定是否让它通过的代理者，被称为“Maxwell 的妖”（Maxwell’s Demon）。而你之所以不能靠这种方式造出高效冰箱，是因为 Maxwell 的妖在检查气体分子并决定放谁通过的过程中，会产生熵。

但如果你原本就知道所有气体分子的位置呢？

那么你实际上就能够运行 Maxwell 的妖，并提取出有用的功。

因此（再次暂时忽略量子效应），如果你知道一杯热水里所有分子的状态，那么从真正的热力学意义上说，它就是冷的：你可以从它里面取出电力，留下一个冰块。

这并不违背 Liouville 定理，因为如果 Y 是这杯水，而你是 Maxwell 的妖（记作 M），那么这个物理过程会表现为：

| M1Y1 | → | M1Y1 |

| M2Y2 | → | M2Y1 |

| M3Y3 | → | M3Y1 |

| M4Y4 | → | M4Y1 . |

因为 Maxwell 的妖知道 Y 的精确状态，所以这就是 M 与 Y 之间的互信息。互信息会降低（M,Y）这个联合系统的总熵：我们有 H(M,Y) = H(M) + H(Y) − I(M;Y)。妖 M 有 2 比特熵，Y 有 2 比特熵，而它们之间的互信息有 2 比特，所以（M,Y）的总熵是 2 + 2 − 2 = 2 比特。这个物理过程只是把互信息中的“冷性”（负熵，即 negentropy）转化出来，使真正的水变冷——此后，M 有 2 比特熵，Y 有 0 比特熵，而互信息是 0。这里没有任何问题！

别再告诉我知识是“主观”的了。知识必须表征在某个大脑之中，而这使它和任何其他事物一样具有物理性。为了让 M 在物理上表征一幅关于 Y 状态的准确图景，M 的物理状态就必须与 Y 的状态发生相关。你完全可以利用这一点来获得热力学上的收益——这就叫做 Szilárd 引擎。

或者，正如 E. T. Jaynes 所说：“古老格言『知识就是力量』，无论在人际关系中还是在热力学中，都是一句极为切中肯綮的真话。”

反过来说，一个子系统如果不（a）与另一个子系统发生交互，并且（b）做出热力学意义上的功，它就不可能增加自己与对方之间的互信息。

否则，你就可以造出一个 Maxwell 的妖，并违背热力学第二定律——这又会进一步违背 Liouville 定理——而这在标准物理模型中是被禁止的。

换句话说：要对某件事形成准确的信念，你真的必须**去观察它。**这是一种非常物理、非常真实的过程：任何理性心智都会在热力学意义上“做功”，而不只是我们在心理努力意义上说的那种做功。

（有时人们会说，真正消耗热力学功的是为了准备下一次观察而擦除比特；但那种区分不过是措辞与视角问题，数学本身并无歧义。）

（发现逻辑“真理”则是一个我暂时不打算处理的复杂问题——至少部分原因在于，我自己也仍在思考其精确形式主义。从热力学角度看，对逻辑真理的知识并不算 negentropy；这正如人们所预料的那样，因为一个可逆计算机可以以任意低的成本计算出逻辑真理。以上我说的一切，都适用于在逻辑上全知的心智：任何比这更弱的心智，效率都必然更低。）

“形成准确的信念，需要有与之相称的证据量”，无论在人际关系还是热力学中，都是一句极其切中肯綮的真话：如果盲信真能作为一种调查方法起作用，那你就可以把温水变成电力和冰块。只要造一个对分子速度抱有盲目信念的 Maxwell 的妖就行了。

认知引擎与热机并没有那么不同，只不过它们操纵的是一种比燃烧汽油更微妙的熵形式。例如，只要一个认知引擎不是完全高效的，它就必然要像汽车引擎或冰箱一样辐射废热。

“冷酷的理性”在一种 Hollywood 编剧从未梦见过的意义上是真的（而在他们梦见的那种意义上则是假的）。

所以，除非你能告诉我，你论证中的哪一个具体步骤通过让你获得关于未见之物的真实知识而违背了物理定律，否则也别指望我会相信，一个庞大、繁复、聪明的论证整体就能做到这一点。

Thoughts Memo 翻译合集

热力学第二定律与认知引擎