我的贝叶斯启蒙
❦
❦
我记得(就人类记忆而言,已经很模糊了)第一次把自己认定为「贝叶斯主义者」的时候。有人刚刚提出了一个老概率谜题的错误版本,说:
如果我在街上遇到一位数学家,她说:「我有两个孩子,而且至少有一个是男孩。」那么他们两个都是男孩的概率是多少?
在这个故事的正确版本里,那位数学家说:「我有两个孩子。」而你问:「至少有一个是男孩吗?」她回答:「是。」这时,他们两个都是男孩的概率是 1/3。
但在这个错误版本里——正如我当时指出的——按常识你会这样推理:
如果这位数学家有一个男孩和一个女孩,那么她说「至少有一个是男孩」的先验概率是 1/2,而她说「至少有一个是女孩」的先验概率也是 1/2。我们没有理由在先验上相信:只有在没有别的可说时,这位数学家才会提到女孩。
于是我指出了这一点,并用贝叶斯法则算出了答案,得出两个孩子都是男孩的概率是 1/2。我不确定自己当时是否已经知道贝叶斯法则就叫这个名字,但我用的确实就是它。
然后,瞧,就有人对我说:「嗯,你刚才给出的是贝叶斯主义者的答案,但在正统统计学里,答案是 1/3。我们只是把被排除掉的可能性删去,再数一数剩下的那些,而不会试图去猜数学家会说这个还是那个的概率,因为我们根本无从真正知道那个概率——它太主观了。」
我回答道——注意,这完全是脱口而出的——「你到底在说什么鬼话?你根本不可能不去给数学家会作出哪种陈述分配一个概率。你只是把那个概率假定成了 1,而那才是没有根据的。」
对方答道:「对,这正是贝叶斯主义者会说的话。但频率主义者并不相信这个。」
而我震惊地说:「怎么可能会存在什么非贝叶斯统计学?」
那时我才发现,原来自己属于一种叫作「贝叶斯主义者」的人。就我所能判断的,我生来就是这样。我的数学直觉就是如此:凡是贝叶斯主义者说的东西,在我看来都完全直白、简单,就是我自己显然会采用的做法;而频率主义者所说的那些东西,听上去则像是做梦的克苏鲁式那种繁复、扭曲、疯狂的亵渎。我并不是选择成为一个贝叶斯主义者的,就像鱼不是选择用水呼吸一样。
但这还不是我所谓的「贝叶斯启蒙」。我第一次听说「贝叶斯主义」时,只是把它划进「这不是显而易见吗」的那一栏;我并没有在贝叶斯法则之外深入太多。那时候,我仍把概率论看作一种工具,而不是一条法则。我并不认为存在智能的数学法则(我最好的也是最坏的错误)。和几乎所有 AGI wannabe 一样,Eliezer2001 想问题时想的是技术、方法、算法,想的是把各种酷炫的、他能拿来做事的东西塞满工具箱;他在寻找工具,而不是理解。贝叶斯法则是一件非常漂亮的工具,适用于多得令人意外的场合。
然后是我对启发式与偏差的入门。起点是我偶然看到一个网页,那网页是从一份行为经济学入门 Powerpoint 转换过来的。里面顺带提到了启发式与偏差的一些实验结果,却没有给出任何参考文献。我惊讶得不行,于是给作者发邮件,问这究竟是真实实验,还是只是轶事。于是他给我回传了一份 Tversky 和 Kahneman 于 1973 年发表的论文扫描件。
说来惭愧,我的故事其实并不是从那里真正开始的。我把这事记进了自己「以后要去看」的清单里。我知道有一本论文集叫作 “Judgment Under Uncertainty: Heuristics and Biases”,但我从没见过它。那时候,我觉得如果它不在网上,我就只能想办法在没有它的情况下继续过下去。我的阅读堆里还有太多别的东西,而且我也没法方便地使用大学图书馆。我想我一定是在某个邮件列表里提过这事,因为 Emil Gilliam 对我这种「只看网上资料」理论很不爽,于是他把那本书买给了我。
他这一举动,大概应当算是拿下了相当不少的分数。
但这同样还不是我所说的「贝叶斯启蒙」。这是迈向认识到自己传统理性主义技能不足的重要一步——原来外面还有这么多东西,这么多新的科学,而不只是照着 Richard Feynman 告诉你的那些去做。看到启发式与偏差研究把贝叶斯高举为黄金标准,也确实推动了我的思考继续向前——但还没有一直推到终点。
记忆是很脆弱的东西,而自从我了解了记忆会在每次回忆时被重建——也了解了它们究竟有多脆弱的那门科学——我的记忆似乎比大多数人的还要更脆弱。别人真的拥有更好的记忆吗?还是说,他们只是相信了自己头脑编造出的那些细节,其实并没有比我记得更多?我的猜测是,别人对某些事情确实记得更好。结构化的、科学性的知识,我记起来倒还容易;但日常生活那种彼此不相连的混乱琐事,对我来说消退得非常快。
我知道自己生命中某些事情为什么会发生——那是我记得住的因果结构。但有时候,连某些事情究竟是按什么顺序发生在我身上的,我都很难回忆起来,更别说具体是哪一年了。
我不确定自己是在读 E. T. Jaynes 的《Probability Theory: The Logic of Science》之前,还是之后,才意识到自己愚行的分量有多大,并明白自己面对的是一个成年人问题。
但真正起作用的是《Probability Theory》。在那本书里,概率论被展开陈述的方式,不再是某种聪明工具,而是规则本身,违背它就会付出悖论的代价。如果你因为直接使用这些规则在计算上太昂贵,而试图去近似它们,那么,无论那种妥协多么必要,最终你做出的仍会比最优更差。Jaynes 会用不同的方法做同一个计算,来展示:只要你用的是正当的方法,就总会得到同样的答案;他也会把别人得出的不同答案摆出来,一路追查那一步不正当的推导。悖论无法和他的精确性共存。不是一个答案,而是那个答案。
于是——在回望自己的错误,以及那些把我引向悖论与沮丧的、一个个 「某个答案」 之后——我忽然意识到,这里就是在我之上的层级。
我再也无法想象,自己还能靠那些模糊答案——像我以前想出来的那些「某个答案」——去构建 AI,并活着挺过这个挑战。
我看着那些曾跟我争论友好型 AI(Friendly AI, FAI)的 AGI wannabe,以及他们各自拥有的各种关于友好性的梦想。(往往还是我一提问题,他们当场就自发想出来的!)它们就像频率主义统计方法一样,彼此之间没有两个是一致的。由于我已经实际全职研究这个问题若干年了,我知道他们那些满怀希望的计划会撞上哪些问题。而我也看得出:如果你说「我看不出这为什么会失败」,这里头那个「看不出」其实只是在反映你自己的无知。我看得出,如果我把自己也放在类似的「这看起来是个好主意」标准上,我一样会完蛋。(这很像一个频率主义者发明出惊人的新统计计算,并且觉得它们看起来像好主意。)
但是,如果你不能去做那些看起来像好主意的事——如果你不能去做那些你想象不出会失败的事——那你还能做什么?
在我看来,要解决一个成年人问题并幸存下来,大概要达到某种类似 Jaynes 的层级才行——不是看,这是我的灵光一现,而是这才是你能做这件事的唯一正确方式(以及为什么)。如果我能在自己的领域里达到 Jaynes 在概率论上达到的那种掌握程度,那至少可以想象:我也许能尝试构建一个友好型 AI,并在这段经历里活下来。
有一段话从我脑海里闪过:
不要因为某件事正义、值得称赞或高尚,就去做它;不要因为某件事看起来值得去做,就去做它;只去做你必须做、而且除了那样之外别无他法的事。1
去做那些看起来值得去做的事,只会把我带偏。
于是我喊了一声「停」。
我决定,从那时起,我要采取一种如果几年前就照做本来可以救我的策略:不要再把那些「看起来像个好主意」的标准用于我的 FAI 设计,而是提高要求,只做那些我理解得足够深、以至于能看出自己不可能用别的方式来做的事。
我那些投入了太多心血的旧理论,没有一条达到这个标准;离这个标准也远得很;甚至都没走在通往这个标准的轨道上;所以我把它们统统扔出了窗外。
我开始研读概率论与决策理论,并寻求把它们扩展到足以容纳反思性与自我修改这类东西。
如果我没记错的话,到这个时候,我已经开始把认知看作是在呈现贝叶斯结构——这也是我所说的贝叶斯启蒙的一大组成部分,不过这一点我已经讲过了。还有我的自然主义觉醒,这一点我也已经讲过了。还有,我意识到传统理性主义还不够严格,因此在涉及人类理性的问题上,我开始更多地从概率论和认知心理学那里获取启发。
但如果把这些事情全都加在一起,那大体上也就构成了我的贝叶斯启蒙故事。
人生很少有整齐的边界。这个故事还在继续。
例如,正是在研读 Judea Pearl 的时候,我才意识到:精确性能替你节省时间。在那之前,我自己也对非单调逻辑下过一些工夫——那还是我处在「寻找漂亮工具和算法」模式里的时候。读《Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference》2 时,我能想象:如果自己当时不知道那把关键钥匙,我会在各种特设系统和特殊情形上浪费掉多少时间。「只去做你必须做、而且除了那样之外别无他法的事」,节省下来的时间,衡量单位不是少浪费了几个月,而是少浪费了整个职业生涯。
于是我意识到,正是靠着用这种更高的精确标准要求自己,我才开始在相当多的重要问题上真正开始思考。把一件事精确地说出来是很难的——这跟把一件事形式化地说出来,或者发明一套新逻辑往问题上砸,根本不是一回事。许多人会因为这种不便而退缩,因为人类是懒惰的;于是他们说:「这不可能」,或者「这会花太久」,尽管他们连真正尝试过五分钟都没有。但如果你不用那种不便到令人难受的高标准要求自己,你就会放任自己什么都糊弄过去。光是找到一个足够高的标准,好让你真正开始思考,本身就是个难题!把自己要求到数学证明那种地步——每一步都必须正确,一步走错就可能把你带去任何地方——这看上去也许很费劲。但不这样的话,你就不会去追查那些细微的不和谐音;而事实证明,它们确实会一路引向那些你从未想到过的全新顾虑。
所以这些天,我已经不再那么抱怨:把自己维持在精确标准上,需要承受多么英雄式的不便负担。它也能替你节省时间;事实上,想让自己真正开始思考一个问题,这差不多就是入场费。
而这一点也应被视为我的「贝叶斯启蒙」的一部分——我意识到,其中不只有代价,也有好处。
不过故事当然还在继续。人生就是这样,至少我记得住的那部分是这样。
如果说我从这段历史里学到了一件事,那就是:能够在未来说出「哎呀」这件事,本身是值得期待的。当然,未来会说出「哎呀」这一前景,也意味着此刻的你是个流着口水的白痴,你说出来的话,未来的自己会因为不忍直视而根本读不下去。但未来会说出「哎呀」,同时也意味着:未来的你将获得一些现在的你连做梦都想不到存在的新绝地力量。这会让你尴尬,但也会让你觉得自己活着。意识到年轻时的自己是个彻底的蠢货,也意味着:即便你已经二十多岁了,你也还没有越过自己的巅峰。所以,就让我们期待未来的自己也会发现我是个流着口水的白痴吧:我也许打算用自己现在的能力解决问题,但多出一些绝地力量,当然会很有帮助。
那一声惊骇与羞耻交织的尖叫,就是理性主义者升级时发出的声音。有时候我会担心,自己升级的速度没有从前那么快了;我也不知道,这是因为我终于开始摸到门道了,还是因为我脑子里的神经元正在慢慢死掉。
此致,Eliezer2008。
Le Guin,《The Farthest Shore》。 ↩︎
Pearl,《Probabilistic Reasoning in Intelligent Systems》。 ↩︎
[挑战艰难
(序列)][30]