理性验证的三个层次

Three Levels of Rationality Verification

❦

我强烈怀疑，存在这样一门可能的理性技艺：它能够超出标准技能的范围，也超出任何单个实践者个人所知道的东西。（它关乎获得那张能够反映疆域的地图，并通过选择把现实导向你偏好排序中较高的区域。）我感觉到还有更多可能。

而这件事若要由一群人来推进，究竟能做出多少有用的成果，将压倒性地取决于：我们能设计出什么方法，来验证我们那些层出不穷、看上去很棒的好点子。

我建议把验证方法按用途分成三个层次：

声誉层面
实验层面
组织层面。

如果你的武术师父偶尔会和其他门派的大师进行逼真的对决（理想情况下，是真正的决斗），而且他能赢，或者至少不会太常输，那么你就知道，这位师父的声誉是有现实根基的；你知道，你的师父并不是一个彻头彻尾装样子的人。如果你的门派会定期和其他门派比武，道理也是一样。那你就是在让事情不脱离现实。

有些武术门派的实战对抗不够逼真，所以他们的学生一遇上真正的街头斗士，几秒钟就倒下。还有些武术学校则完全不进行任何对抗——除了靠魅力和精彩故事来比——于是他们的大师便认定自己拥有气功异能。后一类里，我们也可以放进缺乏证据却不断滋生的学派——精神分析那些四分五裂的流派就是如此。

因此，哪怕只是迈出最基础的一步：尝试把声誉锚定在某种除了魅力和精彩故事之外的现实考验上，都会给整个事业领域带来极其巨大的正面效应。

但这还不足以让你拥有一门科学。科学要求你能够拿方法 A 的 100 次应用，对比方法 B 的 100 次应用，然后对结果做统计。实验必须是可复现的，而且要被重复出来。这要求你有一套标准测量，可以用于那些通过随机分派、接受不同教学方法的学生；而不是仅仅依赖于大师之间使用各自全部积累技巧与力量进行的真实对决。

幸福研究这一领域，大体上就是这样诞生的：人们意识到，去问别人「你现在感觉有多好？按 1 到 10 分打分」，这个测量和其他测量幸福感的想法相比，在统计上有相当不错的验证效果。尽管一开始有很多怀疑，但现在看来，如果你去问 100 个人然后取平均，这个指标对某些事情确实相当有用。

但假如你想把更幸福的人安排到权力位置上——付钱让幸福的人训练别人变得更幸福，或者在一家对冲基金里雇佣最幸福的人——那你就需要某种比单纯问一句「你有多幸福？」更难被作弊的测试。

关于验证方法是否足够好、能否用来建立组织，这个问题在现代人类社会的每个层面上，都是一个巨大的难题。如果你要用 SAT 来控制精英大学的录取，那么 SAT 会不会被一种「只为 SAT 而学」的方式攻破，而这种学习方式最后却并不再和其他学术潜力相关？如果你赋予大学颁发学位的权力，那么它们会不会因此产生不让人挂科的激励？（在我看来，这简直明显得不能再明显：验证习得技能的任务，以及由此带来的学位授予权，应该和实际教学的机构分离开来；不过这个先不展开。）如果一家对冲基金贴出 20% 的回报率，那它们真比指数基金好那么多吗？还是说，它们只是在卖出看跌期权，而这会在熊市里炸掉？

如果你有一种可以被钻空子的验证方法，那么整个领域就会适应性地去钻它的空子，并且丢失其目的。大学会变成测试你是否能熬过课程的地方。高中除了围着全州统考打转，什么也不做。对冲基金则靠卖出看跌期权来抬高收益。

但另一方面——尽管我们的组织性验证方法并不完美，我们终究还是设法培养出了工程师。那么，你可以用什么完美或不完美的方法来验证理性技能，使它们至少对作弊有一点点抵抗力呢？

（高噪声的测量在实验性用途上仍然可用，只要你随机分派了足够多的受试者，就可以预期让方差相互抵消。但若是为了组织性用途，要验证具体的个人，你就需要低噪声的测量。）

所以，我现在把这个问题抛给你——你要如何验证理性技能？在这三个层次中的任何一个层次上都行。我恳请你们头脑风暴；即便一种测量既困难又昂贵，它也可能成为用于验证其他指标的黄金标准。要是你想到某些最好不要公开知晓的测量方法，也欢迎发邮件到 yudkowsky@gmail.com 告诉我（当然，这本身也是这种方法的一个重大缺点）。蠢点子也可能启发好点子，所以如果你想不出好点子，那就想出一个蠢点子来。

声誉层面、实验层面、组织层面：

某种大师和学派可以用来让自己不脱离现实（在现实意义上真实）的东西；
某种你可以拿来测量 100 个学生中每一个人的东西；
某种即便人们有动机去钻空子，你仍然可以把它当作测试使用的东西。

在每个层次上找到好的解决方案，将决定整个研究领域究竟能有什么用——以及它有希望做到多少事情。这是那些重大、关键、基础性问题之一，所以——

想！

P.S.: 先自己想一想，再去看别人的点子；我们在这里需要的是覆盖面的广度。

Thoughts Memo 翻译合集

理性验证的三个层次