终极价值与工具价值

在纯粹的直觉层面上，任何人类决策者的行为都表现得好像他们能清晰区分手段与目的。想吃巧克力？当地的 Publix 超市里就有。如果你沿着华盛顿大街向南开一英里，就能到超市。如果你坐进车里，就能开车。如果你打开车门，就能坐进车里。如果你有车钥匙，就能打开车门。于是，你把车钥匙放进口袋，准备出门……

……突然，收音机里传来一条新闻，一场地震摧毁了当地 Publix 超市里的所有巧克力。好吧，既然超市里已经没有巧克力了，那再开车去超市就毫无意义；如果你哪儿都不去，坐进车里就毫无意义；如果你根本不开车，把车钥匙揣在口袋里也毫无意义。于是，你把车钥匙从口袋里掏出来，给当地的披萨店打了个电话，让他们送一份巧克力披萨。嗯，真香。

我很少看到有人会迷失在自己制定的计划里。人们一旦知道没有巧克力了，通常就不会再傻傻地开车去超市。但我还注意到，当人们开始显式地讨论目标系统，而不仅仅是表达渴望时，开始口头谈论「目标」而不是在实际中实践目标时，他们往往会陷入混乱。人类是制定计划的专家，却不是计划理论的专家，否则这个世界上就会有大得多的 AI 开发者群体了。

具体来说，我发现当人们在抽象的哲学思辨（而非日常生活）中，去思考手段与目的的区别时，往往会感到困惑。更正式地来说，就是分不清「工具价值」和「终极价值」。

在我看来，部分原因在于人类大脑是用一种相当权宜、临时凑合的机制来管理目标的——这套机制管用，但并不严密。在英语中，手段与目的之间并没有泾渭分明的界限：在「我想救我妹妹的命」和「我想给我妹妹注射青霉素」中，使用的都是同一个词「想（want）」。

我们能用日常语言，将这种被忽略的区别描述清楚吗？

先做个初步尝试：

「工具价值」的感召力，完全取决于其预期的后果。「我想给我妹妹注射青霉素」，并不是因为一个被注射了青霉素的妹妹本身是什么终极的美好状态，而是因为你预期青霉素能治愈她那致命的肺炎。如果相反，你预料到注射青霉素会像《绿野仙踪》里的西方坏女巫那样，让你妹妹瞬间融化成一摊水，你一定会拼死阻止她接触青霉素。

「终极价值」的感召力，则完全不依赖于其他后续后果：「我想救我妹妹的命」，这与你是否预期她随后会被注射青霉素毫无关系。

但这首次尝试显然有缺陷。如果救我妹妹的命会导致地球被黑洞吞噬，那我大概会跑到一边痛哭一场，但绝不会坚持要给她注射青霉素。这是否意味着，救妹妹的命在理论上因其后果而改变，所以它就不是一个「终极的」或「内在的」价值了？难道我仅仅是因为相信地球随后不会被黑洞吞噬，才去救她的命吗？常识告诉我们，事实显然并非如此。

所以，忘掉日常语言吧。我们可以为决策系统建立一个数学模型。在其中，终极价值和工具价值是两种完全独立且不兼容的类型——就像编程语言中的整数和浮点数，在没有自动隐式转换的情况下，它们不可混淆。

一个理想的贝叶斯决策系统只需四个基本要素就能构建起来：

结果（Outcomes）：类型 Outcome[]

所有可能结果的列表
{ 妹妹活下来，妹妹死去 }

行动（Actions）：类型 Action[]

所有可能行动的列表
{ 注射青霉素，不注射青霉素 }

效用函数（Utility_function）：类型 Outcome ⇒ Utility

将每个结果映射为具体效用值的函数
（效用值可以用负无穷到正无穷之间的实数表示）
$\left\{ \begin{aligned} \text{姐妹活着} &\mapsto 1 \\ \text{姐妹死去} &\mapsto 0 \end{aligned} \right\}$

条件概率函数（Conditional_probability_function）：类型 Action ⇒ (Outcome ⇒ Probability)

将每个行动映射到结果概率分布上的函数
（概率可以用 0 到 1 之间的实数表示）
$\left\{ \begin{aligned} \text{使用青霉素} &\mapsto \left( \begin{aligned} \text{姐妹活着} &\mapsto 0.9 \\ \text{姐妹死去} &\mapsto 0.1 \end{aligned} \right) \\[1.5ex] \text{不使用青霉素} &\mapsto \left( \begin{aligned} \text{姐妹活着} &\mapsto 0.3 \\ \text{姐妹死去} &\mapsto 0.7 \end{aligned} \right) \end{aligned} \right\}$

那么决策系统本身如何运转呢？

期望效用（Expected_Utility）：行动 A ⇒ (在所有结果 O 中求和: Utility(O) * Probability(O|A))

一个行动的「期望效用」，等于所有可能结果的效用值，乘以在采取该行动时该结果发生的条件概率，并进行求和。
$\left\{ \begin{aligned} \text{EU}(\text{使用青霉素}) &= 0.9 \\ \text{EU}(\text{不使用青霉素}) &= 0.3 \end{aligned} \right\}$

选择（Choose）：⇒ (在所有行动 A 中求取期望效用 Expected_Utility(A) 的最大值)

选择一个能让「期望效用」最大化的行动。
{ 返回：注射青霉素 }

对于每一个行动，计算其可能带来的所有后续后果的条件概率，然后将这些后果的效用值与其对应的条件概率相乘并累加。最后，挑出那个最好的行动。

这是决策系统在数学上极度简化的模型。显然，在现实世界中，这不是一种高效的决策计算方式。

例如，如果你需要通过一连串的行动去执行一个方案，该怎么办？这个形式化模型可以通过让每个 Action 代表一整套动作序列来轻松表达。但这会带来指数级暴增的选择空间，就像用 100 个字母能打出的所有句子的空间一样庞大。举个简单的例子，如果第一步的备选行动之一是「一枪打烂自己的脚」，人类决策者通常会直接判定这是个馊主意——从而在脑海中排除所有以此行动开头的序列。但在我们的模型中，这种层级结构被压平了。我们不再有步骤序列，只剩下一个个扁平的「行动」。

所以，是的，这其中确实存在一些微小的复杂性。显而易见，否则我们早就付诸实践，以此制造出真正的 AI 了。在这一层面上，它和贝叶斯概率论本身的处境如出一辙。

但在某些时候，在急着加入各种高大上的复杂修饰之前，先审视这个荒谬简单的版本反而是个极其明智的决定。

想想那些言之凿凿的哲学家：「我们所有人本质上都是自私的，我们关心的只有自己的心理状态。那位声称关心儿子福祉的母亲，实际上只是渴望相信儿子过得好——这种信念是她快乐的源泉。她帮助儿子是为了自己的快乐，而不是为了儿子。」此时你反驳道：「好吧，那假设这位母亲为了把儿子推离疾驰而来的卡车而牺牲了自己的生命呢？这可不会让她感到快乐，只会让她丧命。」哲学家支吾片刻，辩解道：「但她这样做，依然是因为她相比其他选项更看重这个选择——是因为她赋予了这一决定某种自我重要性感受。」

于是你只能对他说：

TYPE ERROR: No constructor found for Expected_Utility ⇒ Utility.

请允许我解释一下这个反驳。

即使在如此简单的模型中，也揭示了期望效用（Expected Utility，这是行动所具备的属性）与效用（Utility，这是结果所具备的属性）之间的本质区别。诚然，你都可以把效用和期望效用映射为实数。但这就像是，你发现风速和温度都可以用实数来表示，并不意味着它们是同一种物理量。

哲学家的论证始于：你所有的效用（Utility）都必须建立在「你的心理状态」这一结果（Outcomes）之上。如果这成立，你的心智将扮演一个引导未来的引擎，把现实塑造成让你感到快乐的模样。未来的差异将仅仅取决于你的主观心理体验；对于任何两个能让你产生相同心理状态的未来，你都会表现得无所谓。

在那种情况下，你确实极不可能牺牲自己的生命去拯救他人。

而当我们反驳说，现实中确实有人会牺牲生命时，哲学家的论点便立刻偷换概念，转向讨论「行动」层面的期望效用（Expected Utilities）：「她赋予那个决定的重要性感受。」这一跨越极其粗暴，理应让我们愤怒地从椅子上跳起来。在编程语言中，试图将 Expected_Utility 直接转换为 Utility 会导致编译错误。但在日常语言中，这两者听起来却毫无二致。

我们简易决策系统所做出的选择，是那些能带来最高期望效用的选择，但这完全无法说明它实际上将未来引向何方。它不代表决策者内在的效用函数，也无法揭示现实世界中最终可能发生的后果。它没有触及大脑作为「未来塑造引擎」的实际机制。

物理行动的物理成因是一种认知状态——在理想决策者中，即为期望效用（Expected_Utility）。而这个期望效用，是通过对想象中的后果进行效用评估计算得出的。为了救儿子的命，你的脑海中必须想象「儿子获救」这一事件，而这种想象并不是事件本身。它只是一个引述，就像「雪」这个词和真正的雪之间的区别一样。但这并不意味着，引号内部的内容本身也必须是一种主观的心理状态。如果你选择了一个能让未来走向「我儿子还活着」的行动，那么你的大脑就发挥了引擎的作用，将未来导向了「你儿子真正活着」的物理世界。而不是将未来导向「你脑海中呈现出了『我儿子还活着』这一句子」的区域。要想把未来导向后者，你的效用函数在输入「『我儿子还活着』」这一双重引述（即你对自己想象的想象）时，就必须返回一个极高的效用值。这就像如果你把食谱磨碎了扔进面糊里，是做不出好蛋糕的。

这就是为什么，先去思考那些最简易的决策系统会大有裨益。如果在系统里混入太多复杂变量，原本泾渭分明的界限就会变得模糊不清。

现在，我们再来引入一些复杂性。显然，效用函数（将结果 Outcomes 映射为效用值 Utilities）是为了将我先前所说的「终极价值」（即不依赖于后续后果的价值）形式化。那么，如果拯救妹妹的生命会导致地球被黑洞吞噬呢？在我们的简化模型中，这种可能性被抹平了。因为模型中结果并不派生出新的结果，只有行动直接对应结果。妹妹从肺炎中康复并伴随地球随后被黑洞吞噬，在模型里会被打包压缩成一个单一的「可能结果」。

那么在这种简单的形式化模型中，「工具价值」又去哪了？事实上，它们完全消失了！因为在这个模型中，行动直接作用于最终结果，中间没有任何过渡。这里不存在「扔出一块石头，石头飞过天空砸中树枝，让苹果落到地上」的概念。扔石头就是「行动（Action）」，而苹果掉在地上就是「结果（Outcome）」——条件概率函数一步到位地将行动转化为了结果的概率分布。

如果我们要实际计算这个条件概率函数，或者分别权衡妹妹肺炎痊愈和地球被黑洞吞噬的效用，我们就必须将因果关系的网状结构——即事件如何引发其他事件的链条——引入到模型中。

一旦引入，工具价值就自然浮现了。如果因果网络具有足够的规律性，你就能发现某种中间状态 B，无论你通过什么手段达到 B，它总能大概率引发最终状态 C。如果你出于某种原因想要实现 C，高效的规划方式就是先找出一个能引向 C 的中间状态 B，再找出一个能引向 B 的初始行动 A。这就是「工具价值」的本质——状态 B 具备了「工具价值」，因为它能帮你得到 C。而状态 C 本身，可能是你终极渴望的（效用函数中的一项）；也可能同样只是一个工具价值（因果链条上的另一个中间节点）。

在这个形式化框架下，工具价值纯粹是为了更高效地计算并制定方案而存在的辅助手段。只要这种因果规律性不存在，工具价值就完全可以，也应该被直接抛弃。

例如，假设存在某些特定的 B 状态，它们在特定情况下根本无法引向 C。你还会选择去执行一个能导致 B 的行动 A 吗？或者抛开抽象的哲学，谈谈生活常识：如果你想去超市买巧克力，需要开车去，并且需要进到车里。为了进车，你会选择用蒸汽吊车把车门直接暴力撕开吗？（显然不会。）工具价值就是程序员所说的「有漏洞的抽象」；你有时必须丢弃掉那些缓存的经验公式，重新计算实际的期望效用。在不走向自毁的前提下保持高效，关键在于你能敏锐察觉到那些权宜的捷径在何时会失效。尽管这一机制孕育了工具价值，但它仅在必要因果规律存在的范畴内有效，且纯粹是作为一种简化计算的工具。

然而，如果你在没有搞懂简单版本之前就让模型变得过于复杂，你就可能会觉得工具价值具有某种独立的生命力，甚至赋予它某种规范性的道德意义。也就是说，你一旦认定 B 因为能带来 C 而是「好的」，你就会承诺自己：即使在没有 C 的情况下，也总是去追求 B。哲学家在抽象思辨中经常犯这种错误，虽然他们在现实生活中，绝对不会蠢到用蒸汽吊车去撕车门。你甚至会陷入迷思，认为无法设计出一个仅仅最大化其广义遗传适应度的结果主义者^[1]，因为除非在其底层明确写入「吃食物」的终极价值，否则它就会活活饿死。人们之所以会犯这种错误，虽然他们现实中绝对不会整天站在街上傻傻地开车门，生怕自己如果没有「开车门」的终极价值，以后就进不去车里。

工具价值寄宿在条件概率函数（的因果网状结构）中。这意味着，在效用函数固定的情况下，工具价值完全取决于你对客观事实的信念。如果我相信青霉素会导致肺炎，而不用青霉素反而能治好肺炎，那么在我眼中，青霉素的工具价值瞬间就会从极高跌落至零。改变对客观事实的信念——即改变行动与预期后果之间的条件概率函数——工具价值就会随之同步改变。

在道德辩论中，有些分歧纯粹是关于「工具性后果」的，而另一些则是关于「终极价值」的。如果你的辩论对手主张控枪能降低犯罪率，而你主张控枪反而会导致犯罪率飙升，那么你们其实在更高的终极价值上是一致的（都认为犯罪是坏事），分歧仅仅在于哪个中间事件才能导向这个结果。但是，我认为关于女性割礼的争论，绝不是一个关于「如何最有效地实现保护女性公平或快乐这一共同价值」的事实问题。

这一至关重要的区别，在愤怒的宣泄中经常被冲进马桶。面对事实分歧，持有一致终极价值的双方往往会直接认定对方是个反社会恶魔。就好像你所痛恨的控枪/拥枪阵营的对手，真的发自内心想要去杀人一样。这在现实心理学中是完全站不住脚的^[2]。

我担心人类大脑在底层并没有对「终极道德信念」和「工具性道德信念」进行清晰的类型标记。「我们应当禁枪」和「我们应当拯救生命」在道德直觉中，并没有感觉不同，就像视觉和听觉在感官上界限模糊一样。人类的目标系统在复杂化每件事的同时，唯独在这一点上，却极具讽刺地将所有具备条件价值的事物，一锤子买卖地打包压缩成了一团浆糊。

为了剥离出纯粹的终极价值，我们必须抽丝剥茧地审视这团混乱的价值集合，去理清哪些价值其实是从其他地方借来的。这是一项极具挑战的系统工程！如果你说你想禁枪是为了降低犯罪，可能需要过一会儿你才会意识到，「降低犯罪」并不是你的终极价值，它只是一个与人类生命和幸福这些终极价值挂钩的更高层工具价值。而随后，拥枪倡导者可能同样支持「降低犯罪」这一更高层工具价值，但同时还挂载了对「自由」这一价值的追求，而「自由」对他们来说，可能是一个终极价值，也可能只是另一个工具价值……

我们无法将脑海中那一层层衍生出来的价值网络完整打印出来。我们甚至根本不记得这些价值最初是如何形成的。只有通过设计精妙的道德困境实验——比如「如果发生 Y，你还会做 X 吗」——我们才能大致摸清自己价值取向的来龙去脉。但即便是这项工作也充满了陷阱：充满误导性的思想实验，以及逻辑不严密的哲学论证。我们其实并不知道自己的终极价值究竟是什么，也记不得它们源自何处，除非我们愿意开展极易出错的认知考古工作。仅仅是在意识中建立「终极价值」与「工具价值」的清晰区分，并确保自己能准确理解、时刻跟进、正确运用，就已经是极难的事了。只有通过审视那个最纯粹的数学模型，我们才能看清，这件事在原则上本该有多么简单。

更不用提人类那极其混乱的奖励机制了——这其中混合了强化学习架构，以及吃巧克力本身是快乐的，而期盼着吃巧克力也是快乐的，但它们又是完全不同的快乐体验……

但我对这种混乱并无太多怨言。

对自己的真实价值一无所知或许并不总是件好玩的事，但至少，这绝对不枯燥。

人工加法智能

有漏洞的概括

Thoughts Memo 汉化组译制
感谢主要译者 gemini-3.5-flash，校对 Jarrett Ye
原文：Terminal Values and Instrumental Values

参考

1. 尔为神碎 ./2033339867837494056.html
2. 你的敌人是生来邪恶吗？ ./3504961873.html

专栏：理性 & 克服偏见

← 返回目录