贝叶斯定理的直觉解释
An Intuitive Explanation Of Bayess Theorem
直觉解释:
贝叶斯定理
❦
[编者按: 本文是该随笔原文版本的节编,原版包含许多交互元素。]
你的朋友和同事们正在谈论某种叫作「Bayes’s Theorem」或「Bayes’s Rule」的东西,或者某种叫作贝叶斯推理的东西。而且他们谈起来还特别兴奋,于是你去 Google 一下,找到了一个讲贝叶斯定理的网页,然后……
它就是这个方程。就这些。只有一个方程。你找到的页面给了它一个定义,但并没有告诉你它是什么,或者它为什么有用,或者你的朋友们为什么会对它感兴趣。它看上去像是某种莫名其妙的统计学玩意儿。
为什么一个数学概念会在它的学习者中激起这种奇怪的热情?如今席卷科学界、甚至声称连实验方法本身都只是它的一个特例的所谓「贝叶斯革命」,到底是什么?贝叶斯的信徒们知道什么秘密?他们看见了什么光?
你很快就会知道。你很快就会成为我们中的一员。
尽管网上已经有少数几个关于贝叶斯定理的讲解,但根据我试图向别人介绍贝叶斯推理的经验,现有的网络讲解都太抽象了。贝叶斯推理非常反直觉。人们并不会直觉地使用贝叶斯推理;在有人辅导时,他们也会觉得贝叶斯推理很难学;而一旦辅导结束,他们又会很快把贝叶斯方法忘光。这对初学学生和某个领域里受过高度训练的专业人士同样成立。贝叶斯推理显然属于那种东西:就像量子力学或者 Wason Selection Test(Wason 选择任务)一样,人类凭借内建的心智能力,天生就很难真正把握它。
至少他们是这么说的。你在这里将看到一次尝试:为贝叶斯推理提供一种直觉性的解释——一篇温柔得近乎折磨人的入门文章,调动人类把握数字的各种方式,从自然频率到空间可视化。它想传达的,不是操弄数字的抽象规则,而是这些数字究竟意味着什么,以及这些规则为何会是现在这个样子(而且根本不可能是别的样子)。等你读完这篇文章,你做梦都会梦见贝叶斯题。
那么,我们开始吧。
下面是一个故事题,讲的是医生经常遇到的一种情形:
在接受常规筛查的
40岁女性中,1%患有乳腺癌。患有乳腺癌的女性中,有80%会得到阳性的乳房 X 光检查结果。未患乳腺癌的女性中,也有9.6%会得到阳性的乳房 X 光检查结果。某位属于这一年龄组的女性在一次常规筛查中得到了阳性的乳房 X 光检查结果。她实际上患有乳腺癌的概率是多少?
你觉得答案是多少?如果你以前没遇到过这类题,请先停一下,在继续读下去之前,自己想出一个答案。
接下来,假如我告诉你,大多数医生在这道题上都会给出同一个错误答案——通常只有大约 15% 的医生能答对。(「真的?15%?这是个真实数字,还是基于某个互联网投票的都市传说?」这是个真实数字。见 Casscells、Schoenberger 和 Graboys 1978;1 Eddy 1982;2 Gigerenzer 和 Hoffrage 1995;3 以及许多其他研究。这是一个令人吃惊、但又很容易复现的结果,所以它已经被大量复现过了。)
在上面的那个故事题里,大多数医生估计出的概率都在 70% 到 80% 之间,而这错得离谱。
下面是这个问题的另一个版本;在这个版本上,医生们的表现会稍微好一点:
在接受常规筛查的
40岁女性中,每1,000人里有10人患有乳腺癌。患有乳腺癌的女性中,每1,000人里有800人会得到阳性的乳房 X 光检查结果。未患乳腺癌的女性中,每1,000人里也有96人会得到阳性的乳房 X 光检查结果。如果这一年龄组中有1,000名女性接受常规筛查,那么在所有乳房 X 光检查结果为阳性的女性里,大约有多少比例实际上患有乳腺癌?
最后,还有一个版本:在这个版本上,医生们的表现最好,有 46%——接近一半——的人得出了正确答案:
在接受常规筛查的
40岁女性中,每10,000人里有100人患有乳腺癌。每100名患有乳腺癌的女性中,有80人会得到阳性的乳房 X 光检查结果。未患乳腺癌的9,900名女性中,也有950人会得到阳性的乳房 X 光检查结果。如果这一年龄组中有10,000名女性接受常规筛查,那么在所有乳房 X 光检查结果为阳性的女性里,大约有多少比例实际上患有乳腺癌?
正确答案是 7.8%,计算方法如下:在 10,000 名女性中,有 100 名患有乳腺癌;这 100 人里有 80 人的乳房 X 光检查结果为阳性。在同样这 10,000 名女性里,9,900 人并未患乳腺癌;而这 9,900 人里,又有 950 人也会得到阳性的乳房 X 光检查结果。因此,乳房 X 光检查结果为阳性的女性总数就是 950 + 80 = 1,030。在这 1,030 名乳房 X 光检查结果为阳性的女性里,有 80 名患有癌症。写成比例,就是 80/1,030,也就是 0.07767,约等于 7.8%。
换一种说法,在做乳房 X 光筛查之前,这 10,000 名女性可以分成两组:
-
第
1组:100名患有乳腺癌的女性。 -
第
2组:9,900名未患乳腺癌的女性。
把这两组合起来,总共有 10,000 名病人,这确认了我们的数学里没有把任何人弄丢。做完乳房 X 光检查之后,这些女性可以分成四组:
-
A 组:
80名患有乳腺癌且乳房 X 光检查结果为阳性的女性。 -
B 组:
20名患有乳腺癌且乳房 X 光检查结果为阴性的女性。 -
C 组:
950名未患乳腺癌且乳房 X 光检查结果为阳性的女性。 -
D 组:
8,950名未患乳腺癌且乳房 X 光检查结果为阴性的女性。
A 组和 B 组——也就是患有乳腺癌的那两组——加起来,对应第 1 组;C 组和 D 组——也就是未患乳腺癌的那两组——加起来,对应第 2 组。如果你给 10,000 名病人做乳房 X 光检查,那么在 1,030 名结果为阳性的病人中,有 80 名会患有癌症。这就是正确答案;如果一位乳房 X 光检查结果为阳性的病人问医生她患有乳腺癌的概率是多少,医生就应该给出这个答案;如果有 13 位病人提出这个问题,那么她们之中大约会有 1 位患癌。
最常见的错误,是忽略最初患有乳腺癌的女性所占比例,也忽略未患乳腺癌却得到假阳性的女性所占比例,而只盯着患有乳腺癌的女性中有多少比例会得到阳性结果。举例来说,这些研究中的绝大多数医生似乎都认为:如果大约 80% 的乳腺癌女性会得到阳性的乳房 X 光检查结果,那么一位乳房 X 光检查结果为阳性的女性患乳腺癌的概率,必定也大约是 80%。
要算出最终答案,永远都需要全部三个信息片段——患有乳腺癌的女性所占百分比、未患乳腺癌却得到假阳性的女性所占百分比,以及患有乳腺癌并得到(正确)阳性结果的女性所占百分比。
病人中最初患有乳腺癌的比例,叫作先验概率(prior probability)。患有乳腺癌的病人得到阳性乳房 X 光检查结果的概率,以及未患乳腺癌的病人得到阳性乳房 X 光检查结果的概率,这两者叫作两个条件概率(conditional probabilities)。合在一起,这些初始信息叫作先验(the priors)。而最终答案——也就是在我们知道某位病人的乳房 X 光检查结果为阳性之后,她患有乳腺癌的估计概率——叫作修正后概率(revised probability)或后验概率(posterior probability)。我们刚刚已经看到,后验概率有一部分取决于先验概率。
要看出最终答案总是依赖于最初患癌女性所占的比例,不妨考虑一个平行宇宙:在那里,一百万名女性中只有一名患有乳腺癌。即使在那个世界里,乳房 X 光检查能在 10 个病例里检出 8 个乳腺癌,而对未患乳腺癌的女性只会在 10 例中出现 1 例假阳性,那么每检出 1 个真实癌症病例,仍然会有 100,000 个假阳性。女性最初患癌的概率低到了极端,以至于尽管阳性的乳房 X 光检查结果确实会提高估计概率,这个概率也并不会被提高到接近确定,甚至连「有个明显机会」都谈不上;它只是从 1:1,000,000 变成 1:100,000。
这说明,乳房 X 光检查的结果并不会替换你原先关于病人患癌概率的信息;乳房 X 光检查会把估计概率朝着结果所指示的方向推移。阳性结果会把原始概率往上推;阴性结果会把概率往下推。举例来说,在最初那个问题里,1% 的女性患癌,患癌女性中有 80% 的乳房 X 光检查结果为阳性,未患癌女性中有 9.6% 的乳房 X 光检查结果为阳性;那么,一个阳性的乳房 X 光检查结果会把原本 1% 的概率推高到 7.8%。
大多数第一次遇到这类问题的人,会在脑子里进行一种操作:把原本 1% 的概率替换成「患癌女性得到阳性乳房 X 光检查结果的概率 80%」。这在当时看起来也许像个好主意,但它就是行不通。「乳房 X 光检查结果为阳性的女性患有乳腺癌的概率」和「患有乳腺癌的女性得到阳性乳房 X 光检查结果的概率」根本就不是一回事;它们就像苹果和奶酪一样风马牛不相及。
为什么那位贝叶斯推理者要过马路?
你需要更多信息,才能回答这个问题。
假设一个桶里装着许多塑料小蛋。有些蛋被涂成红色,有些被涂成蓝色。桶里有 40% 的蛋里面装着珍珠,60% 的蛋里面什么也没有。装着珍珠的蛋里,有 30% 被涂成蓝色;里面什么也没有的蛋里,有 10% 被涂成蓝色。那么,一个蓝色蛋里面装着珍珠的概率是多少?这个例子的算术足够简单,也许你可以直接心算出来;我建议你试一试。
用一种更紧凑的方式来表述这个问题:
| P(pearl) | = | 40% |
||
| P(blue|pearl) | = | 30% |
| P(blue|¬pearl) | = | 10% |
| P(pearl|blue) | = | ? |
符号「¬」是「not」的简写,所以 ¬pearl 读作「not pearl」。
记号 P(blue|pearl) 是「在已知珍珠的条件下,蓝色的概率」的简写,也就是「在已知这个蛋里装着珍珠的情况下,这个蛋被涂成蓝色的概率」。右边的项是你已经知道的东西,也就是前提;左边的项则是蕴含或结论。如果我们有 P(blue|pearl) = 30%,并且我们已经知道某个蛋里装着珍珠,那么我们就能得出结论:这个蛋有 30% 的概率被涂成蓝色。因此,我们最终要找的那个事实——「一个蓝色蛋里面装着珍珠的概率」或者「在已知这个蛋被涂成蓝色的情况下,这个蛋里装着珍珠的概率」——就写作 P(pearl|blue)。
40% 的蛋里装着珍珠,60% 的蛋里什么也没有。装着珍珠的蛋里,有 30% 被涂成蓝色,所以总共有 12% 的蛋既装着珍珠,又被涂成蓝色。里面什么也没有的蛋里,有 10% 被涂成蓝色,所以总共有 6% 的蛋里面什么也没有,却被涂成蓝色。总共有 18% 的蛋被涂成蓝色,而其中有 12% 的蛋既被涂成蓝色又装着珍珠,所以蓝色蛋里装着珍珠的概率就是 12/18,也就是 2/3,约等于 67%。
和前面一样,我们可以通过考虑极端情形,看出三个信息片段缺一不可。在一个(足够大的)桶里,如果每 1,000 个蛋里只有 1 个装着珍珠,那么知道一个蛋被涂成蓝色,只会把概率从 0.1% 推到 0.3%(而不是把概率从 40% 推到 67%)。类似地,如果每 1,000 个蛋里有 999 个装着珍珠,那么知道一个蛋是蓝色,只会把概率从 99.9% 推到 99.966%;而这个蛋不装着珍珠的概率,则会从 1/1,000 变成大约 1/3,000。
在珍珠蛋问题上,大多数不熟悉贝叶斯推理的回答者,很可能会回答说:蓝色蛋里装着珍珠的概率是 30%,或者也许是 20%(30% 的真阳性概率减去 10% 的假阳性概率)。即使这种脑内操作在当时看起来像个好主意,但从问题本身来看,它根本说不通。这就像这样一个实验:你去问一个二年级小学生,「如果 18 个人上了一辆公交车,然后又有 7 个人上了车,那么公交司机几岁?」许多二年级小学生会回答:「25 岁。」他们明白自己是在被提示执行某种特定的心智程序,但他们还没有完全把这个程序和现实连接起来。同样地,要想求出「乳房 X 光检查结果为阳性的女性患有乳腺癌的概率」,把女性原本患癌的概率替换成「患癌女性得到阳性乳房 X 光检查结果的概率」,完全没有道理。你也不能从真阳性的概率里减去假阳性的概率。这些操作和把公交车上乘客的人数加起来求司机年龄一样,都是荒唐地不相干。
Gigerenzer 和 Hoffrage 在 1995 年的一项研究表明,某些故事题的措辞方式,更容易唤起正确的贝叶斯推理。4 最不容易唤起正确推理的表述方式使用的是概率。稍微好一点的表述方式,则用频数代替概率;问题本身并没有变,只不过不再说 1% 的女性患有乳腺癌,而是说每 100 名女性中有 1 名患有乳腺癌,每 100 名患有乳腺癌的女性里有 80 名会得到阳性的乳房 X 光检查结果,诸如此类。为什么在这种问题上,展现出贝叶斯推理的受试者比例会更高?大概是因为说「每 100 名女性里有 1 名患癌」会鼓励你具体地把 X 名患癌女性想象出来,从而进一步把 X 名患癌且乳房 X 光检查结果为阳性的女性也想象出来,等等。
到目前为止,发现最有效的呈现方式是所谓的自然频率(natural frequencies)——也就是说,不说 40% 的蛋里装着珍珠,而是说每 100 个蛋里有 40 个装着珍珠;不说装着珍珠的蛋里有 30% 被涂成蓝色,而是说 40 个装着珍珠的蛋里有 12 个被涂成蓝色;不说里面什么也没有的蛋里有 10% 被涂成蓝色,而是说 60 个里面什么也没有的蛋里有 6 个被涂成蓝色。所谓自然频率的呈现方式,就是在呈现条件概率时,把关于先验概率的信息也一起包含进去。如果你只是通过自然实验去学习这些蛋的条件概率,那么在你敲开 100 个蛋的过程中,你会敲开大约 40 个装着珍珠的蛋,其中 12 个会被涂成蓝色;与此同时,你还会敲开 60 个里面什么也没有的蛋,其中大约 6 个会被涂成蓝色。在学习这些条件概率的过程中,你看到「蓝色蛋里装着珍珠」的例子,大约会是你看到「蓝色蛋里什么也没有」的两倍。
不幸的是,虽然自然频率是朝着正确方向迈出的一步,但它大概还不够。当题目以自然频率的方式呈现时,使用贝叶斯推理的人群比例会上升到大约一半。这是巨大的改进,但当你面对的是真实的医生和真实的病人时,这还远远不够。
我怎么为一个问题找到先验?
许多常用的先验,都列在 Handbook of Chemistry and Physics 里。
先验最初是从哪里来的?
永远别问这个问题。
哦。那科学家们从哪儿得到他们的先验?
科学问题的先验,是由 AAAS 每年投票决定的。近些年,这种投票变得派系林立而充满争议,普遍的怨恨、阵营极化,甚至还有几起公开刺杀。这也许只是贝叶斯议会内部斗争的幌子,也也许只是争执双方的空闲时间太多。谁也说不准。
我明白了。那其他人从哪儿得到他们的先验?
他们从 Kazaa 下载自己的先验。
如果我想要的先验在 Kazaa 上找不到怎么办?
在旧金山唐人街一条后巷里,有一家又小又乱的古董店。别问那只青铜老鼠。
说正经的,先验和最终答案一样,也有真有假——它们反映现实,可以通过与现实对照来判断。举例来说,如果你以为一个样本里每 10,000 名女性中有 920 名患有乳腺癌,而真实数字其实是每 10,000 人中有 100 人,那么你的先验就是错的。对于我们这个具体问题,这些先验可能来自三项研究——一项研究患有乳腺癌女性的病史,看她们当中有多少人在乳房 X 光检查中结果为阳性;一项研究未患乳腺癌的女性,看她们当中有多少人在乳房 X 光检查中结果为阳性;以及一项流行病学研究,用来测量某个特定人口群体中乳腺癌的患病率。
概率 P(A,B) 与 P(B,A) 是同一个东西,但 P(A|B) 并不是 P(B|A),而且 P(A,B) 也和 P(A|B) 完全不同。把这些量中的某些或全部混为一谈,是一种很常见的混淆。
为了熟悉它们之间的所有关系,我们来玩一个「追踪自由度」的游戏。举例来说,P(cancer) 和 P(¬cancer) 这两个量之间只有一个自由度,因为存在一般规律 P(A) + P(¬A) = 1。如果你知道 P(¬cancer) = 0.99,那么你就能求出 P(cancer) = 1 − *P*(¬cancer) = 0.01。
P(positive|cancer) 和 P(¬positive|cancer) 这两个量之间也只有一个自由度;一个患有乳腺癌的女性,要么会得到阳性的乳房 X 光检查结果,要么不会。另一方面,P(positive|cancer) 和 P(positive|¬cancer) 之间却有两个自由度。你可以有一种乳房 X 光检查:它对患癌病人给出 80% 的阳性率,对健康病人给出 9.6% 的阳性率;也可以有另一种检查:它对患癌病人给出 70% 的阳性率,对健康病人给出 2% 的阳性率;甚至还可以有一种健康检验:它对患癌病人给出 30% 的「阳性」率,对健康病人却给出 92% 的「阳性」率。这两个量——乳房 X 光检查对患癌病人的输出,以及乳房 X 光检查对健康病人的输出——在数学上是相互独立的;没有任何办法能从其中一个推出另一个,所以它们之间有两个自由度。
那么 P(positive, cancer)、P(positive|cancer) 和 P(cancer) 呢?这里我们有三个量;它们之间有多少自由度?在这种情况下,必须成立的方程是
P(positive, cancer) = P(positive|cancer) × P(cancer).
这个等式会让自由度减少一个。如果我们知道患癌病人所占比例,以及患癌病人得到阳性乳房 X 光检查结果的概率,那么我们就可以通过相乘,推出既患有乳腺癌又得到阳性乳房 X 光检查结果的病人所占比例。
同样地,如果我们知道既患有乳腺癌又得到阳性乳房 X 光检查结果的病人数,也知道患有乳腺癌的病人数,那么我们就可以通过相除来估计「患癌女性得到阳性乳房 X 光检查结果的概率」:P(positive|cancer) = P(positive, cancer)/P(cancer)。事实上,这正是这类医学诊断检验被校准的方式;你对 8,520 名患有乳腺癌的女性做一项研究,看到其中有 6,816 名(或者差不多这个数)既患有乳腺癌又得到了阳性乳房 X 光检查结果,然后用 6,816 除以 8,520,就得到 80% 的患癌女性乳房 X 光检查结果为阳性。(顺便说一句,如果你不小心把 8,520 除以 6,816,而不是反过来,那么你的计算就会开始出现奇怪的事情,比如坚持认为「既患有乳腺癌又乳房 X 光检查结果为阳性的女性中,有 125% 患有乳腺癌」。根据我的经验,这是做贝叶斯算术时的常见错误。)最后,如果你知道 P(positive, cancer) 和 P(positive|cancer),你也能推出最初必定有多少患癌病人。这三个量共享两个自由度;如果我们知道其中任意两个,就可以推出第三个。
那么 P(positive)、P(positive, cancer) 和 P(positive, ¬cancer) 呢?这三个变量之间同样只有两个自由度。那个占掉额外自由度的方程是
P(positive) = P(positive, cancer) + P(positive, ¬cancer) .
这就是 P(positive) 一开始的计算方式;我们先算出患有乳腺癌且乳房 X 光检查结果为阳性的女性人数,再算出未患乳腺癌但乳房 X 光检查结果为阳性的女性人数,然后把它们加起来,得到乳房 X 光检查结果为阳性的女性总数。专门跑出去做一项研究,只为确定乳房 X 光检查结果为阳性的女性有多少——只要这一个数字,别的什么都不要——会显得非常奇怪;但从理论上讲,你是可以这么做的。而如果你接着又做了另一项研究,找出了这些女性中有多少人既乳房 X 光检查结果为阳性又患有乳腺癌,那么你也就会知道乳房 X 光检查结果为阳性但没有乳腺癌的女性有多少——因为一位乳房 X 光检查结果为阳性的女性,要么患有乳腺癌,要么没有。一般地说,P(A,B) + P(A,¬B) = P(A)。对称地,P(A,B) + P(¬A,B) = P(B)。
那么 P(positive, cancer)、P(positive, ¬cancer)、P(¬positive, cancer) 和 P(¬positive, ¬cancer) 呢?你一开始也许会忍不住以为,这四个量之间只有两个自由度——比如说,你可以通过 P(positive) × P(¬cancer) 算出 P(positive, ¬cancer),于是只要给定 P(positive) 和 P(cancer) 这两个量,就能找到四个量的全部值。但事实并非如此!只有在这两个概率统计独立的时候,P(positive, ¬cancer) = P(positive) × P(¬cancer) 才成立——也就是说,一个女人是否患有乳腺癌,对她是否会得到阳性的乳房 X 光检查结果毫无影响。这等价于要求那两个条件概率彼此相等——而这个要求本身就会消掉一个自由度。如果你记得这四个量就是 A、B、C 和 D 四组,那么你只要看着这四组就会意识到:理论上,你可以往四组里各放进任意数量的人。如果你先有一组 80 名既患有乳腺癌又乳房 X 光检查结果为阳性的女性,那么完全没有理由不能再加上一组 500 名患有乳腺癌但乳房 X 光检查结果为阴性的女性,再加上一组 3 名未患乳腺癌且乳房 X 光检查结果为阴性的女性,等等。所以现在看上去,这四个量似乎有四个自由度。它们本来也确实如此;只不过当我们把它们表示成概率时,我们必须把它们归一化成完整人群中的比例,这就额外加入了一个约束:P(positive, cancer) + P(positive, ¬cancer) + P(¬positive, cancer) + P(¬positive, ¬cancer) = 1。这个方程占掉了一个自由度,于是四个量之间还剩下三个自由度。如果你指定 A、B 和 D 组女性所占的比例,你就可以推出 C 组女性所占的比例。
给定 A、B、C 和 D 这四组后,再去计算其他一切就非常直接了:
| P(cancer) | = | A + B |
||
| A + B + C + D |
| P(¬positive|cancer) | = | B | |
| A + B , |
如此等等。既然 { A, B, C, D} 含有三个自由度,那么就意味着,把患癌率和检验结果联系起来的整套概率系统,也只含有三个自由度。记得吗?在我们的问题里,我们总是需要三个信息片段——先验概率和两个条件概率——而它们之间确实正好有三个自由度。实际上,对于贝叶斯问题来说,任意三个彼此之间有三个自由度的量,从逻辑上都应该足以确定整个问题。
一次检验给出真阳性的概率除以一次检验给出假阳性的概率,就叫作这个检验的似然比(likelihood ratio)。一个阳性结果的似然比,总结了阳性结果会把先验概率推移多少。那么,一个医学检验的似然比,是否就概括了关于这个检验有用性的全部信息呢?
不,并没有!似然比概括的是:在这个医学检验上,一个阳性结果意味着什么;但它并没有说明一个阴性结果意味着什么,也没有说明这个检验究竟会以多高频率真正派上用场。举例来说,一个对乳腺癌病人的命中率为 80%、对健康病人的假阳性率为 9.6% 的乳房 X 光检查,与另一个命中率为 8%、假阳性率为 0.96% 的检验,具有同样的似然比。虽然这两个检验有相同的似然比,但第一个检验在每一个方面都更有用——它更常检出疾病,而且阴性结果也是更强的健康证据。
假设你连续做了两项乳腺癌检验——比如说,一项标准的乳房 X 光检查,再加上另一项与乳房 X 光检查独立的检验。由于我并不知道真有哪种检验与乳房 X 光检查彼此独立,所以为了这个题目,我来虚构一种,并把它叫作 Tams-Braylor 分裂检验(Tams-Braylor Division Test);它检查的是某些细胞是否比分别的其他细胞分裂得更快。我们假定,Tams-Braylor 对患有乳腺癌的病人给出 90% 的真阳性率,对未患癌病人给出 5% 的假阳性率。再假设乳腺癌的先验患病率是 1%。如果一个病人在乳房 X 光检查和 Tams-Braylor 上都得到阳性结果,那么她患有乳腺癌的修正后概率是多少?
解决这个问题的一种方法,是取我们先前已经算出来的阳性乳房 X 光检查所对应的修正后概率 7.8%,把它作为新的先验概率代入 Tams-Braylor 检验。如果这样做,我们会发现结果是 60%。
假设某一人口群体中的乳腺癌先验患病率是 1%。再假设我们作为医生,手头有三项彼此独立的乳腺癌检验。第一项检验,检验 A,也就是乳房 X 光检查,它的似然比是 80%/9.6% = 8.33。第二项检验,检验 B,它的似然比是 18.0(例如来自 90% 对 5%);第三项检验,检验 C,它的似然比是 3.5(这可以来自 70% 对 20%,也可以来自 35% 对 10%;都没有区别)。假设一位病人在这三项检验上都得到了阳性结果。那么,这位病人患有乳腺癌的概率是多少?
下面是一个能简化记账过程的小技巧。如果某一人口群体中的乳腺癌先验患病率是 1%,那么每 100 名女性里就有 1 名患有乳腺癌,99 名没有患有乳腺癌。所以,如果我们把 1% 这个概率改写成赔率比(odds ratio),那么赔率就是 1:99。
而三项检验 A、B 和 C 的似然比分别是:
| 8.33 : 1 | = | 25 : 3 |
||
| 18.0 : 1 | = | 18 : 1 |
| 3.5 : 1 | = | 7 : 2 . |
那么,在三项检验上都得到阳性结果的「患有乳腺癌的女性」相对于「未患乳腺癌的女性」的赔率就是:
1 × 25 × 18 × 7 : 99 × 3 × 1 × 2 = 3,150 : 594 .
要从赔率恢复出概率,我们只要写出:
3,150/(3,150 + 594) = 84% .
无论赔率比写成什么形式,这个方法都总是成立;也就是说,8.33:1 和 25:3 或 75:9 完全是一回事。检验按什么顺序施行、结果按什么顺序计算,统统都没有影响。证明留给读者作为练习。
E. T. Jaynes 在 Probability Theory With Applications in Science and Engineering 中建议,用分贝来衡量可信度和证据。5
分贝?
分贝是用来衡量强度之间指数级差异的。举例来说,如果汽车喇叭的声音所携带的能量(每平方米每秒)是闹钟声音的 10,000 倍,那么汽车喇叭就会比闹钟响 40 分贝。一只小鸟歌唱的声音,所携带的能量也许比闹钟少 1,000 倍,因此就会比闹钟轻 30 分贝。要得到分贝数,你只需要取以 10 为底的对数,再乘以 10:
分贝 = 10 log10 (强度)
或者
强度 = 10分贝/10 .
假设我们从某位女性患有乳腺癌的先验概率 1% 出发,这对应于 1:99 的赔率。然后我们施行三项检验,它们的似然比分别是 25:3、18:1 和 7:2。你当然可以把这些数字直接相乘……但你也可以只把它们的对数相加:
| 10 log10(1/99) | ≈ | −20 |
||
| 10 log10(25/3) | ≈ | 9 |
| 10 log10(18/1) | ≈ | 13 |
| 10 log10(7/2) | ≈ | 5 . |
一开始,一位女性患有乳腺癌是相当不大可能的——我们的可信度水平在负 20 分贝。然后三项检验结果到来,分别对应 9、13 和 5 分贝的证据。这让可信度水平总共提高了 27 分贝,也就是说,原本负 20 分贝的先验可信度,变成了 7 分贝的后验可信度。因此,赔率从 1:99 变成了 5:1,而概率则从 1% 变成了大约 83%。
你是一名修理小装置的机械师。一个小装置停止运作时,有
30%的情况是因为一根软管堵塞了。如果一个小装置的软管堵塞,那么戳弄这个小装置时,它有45%的概率会冒出火花。如果一个小装置的软管没有堵塞,那么戳弄它时,只有5%的概率会冒出火花。一位顾客带来一个坏掉的小装置。你戳弄了一下这个小装置,发现它冒出了火花。那么,一个会冒火花的小装置,其软管堵塞的概率是多少?
你为了解出这个问题,所执行的算术运算序列是什么?
(45% × 30%)/(45% × 30% + 5% × 70%)
或者
同样地,要找出一位乳房 X 光检查结果为阳性的女性患有乳腺癌的概率,我们计算的是:
| P(positive|cancer) × P(cancer) |
||
| | | P(positive|cancer)×P(cancer) |
|
| + | P(positive|¬cancer) × P(¬cancer) |
也就是
| P(positive, cancer) |
||
| P(positive, cancer) + P(positive, ¬cancer) |
也就是
| P(positive, cancer) |
||
| P(positive) |
也就是
P(cancer|positive) .
这种计算的完全一般形式,就叫作贝叶斯定理(Bayes’s Theorem)或贝叶斯法则(Bayes’s Rule)。
贝叶斯定理:
| P(A|X) | = | P(X|A) × P(A) |
||
| P(X|A) × P(A) + P(X|¬A) × P(¬A) |
当我们有某个想调查的现象 A,以及某个关于 A 的证据性观察 X——比如在前面的例子里,A 是乳腺癌,而 X 是一次阳性的乳房 X 光检查结果——贝叶斯定理告诉我们的,就是在给定新证据 X 的情况下,我们应当如何更新对 A 的概率。
到了这一步,贝叶斯定理看起来也许不再让人兴奋、耳目一新,反而显得直白得近乎显然,甚至像同义反复。如果是这样,那就说明这篇导论已经完全成功地达到了它的目的。
贝叶斯定理描述了:是什么让某样东西成为「证据」,以及它究竟是多强的证据。统计模型之所以要拿来与贝叶斯方法(Bayesian method)比较,是因为在统计学里,贝叶斯方法已经是你所能达到的最好水平——贝叶斯方法定义了:你究竟能从一条给定证据中榨出多少信息价值,就像热力学定义了你究竟能从一个温差中提取多少功一样。这就是为什么你会听见认知科学家谈论贝叶斯推理者(Bayesian reasoners)。在认知科学里,贝叶斯推理者就是我们用来表示理性心智(rational mind)的那个技术上精确的暗语。
除此之外,光是盯着贝叶斯定理本身,你还能学到不少关于人类推理的一般启发式规律。
举例来说,在许多关于贝叶斯定理的讨论里,你也许会听见认知心理学家说,人们没有充分把先验频率考虑进去。意思是:当人们面对一个问题,其中有某种证据 X 表明某种状况 A 可能为真时,他们往往只根据证据 X 看起来与 A 有多匹配,来判断 A 的可能性,却没有把 A 的先验频率考虑进去。比如说,如果在乳房 X 光检查那个例子里,你觉得那位女性患有乳腺癌的概率大约在 70%–80% 之间,那么这种推理方式就对题目里给出的先验频率完全不敏感;它根本不会注意到,一开始患有乳腺癌的女性究竟是 1% 还是 10%。「多注意先验频率!」 是人类为了部分补偿自身内建缺陷,而必须牢记在心的许多事情之一。
另一个相关错误是:在判断 X 对 A 究竟是多强的证据时,人们过分关注 P(X|A),却不够关注 P(X|¬A)。一个结果 X 在多大程度上是支持 A 的证据,不仅取决于这样一句话有多强——「如果 A 为真,我们会预期看到结果 X」——也取决于另一句话有多强——「如果 A 不为真,我们就不会预期看到结果 X」。举例来说,如果正在下雨,那么这会非常强烈地意味着草是湿的——P(wetgrass|rain) ≈ 1——但看到草是湿的,并不必然意味着刚刚下过雨;也许洒水器被打开了,或者你看到的是清晨的露水。由于 P(wetgrass|¬rain) 明显大于零,所以 P(rain|wetgrass) 就明显小于 1。另一方面,如果草在不下雨的时候从不会湿,那么知道草是湿的就会总是表明正在下雨,即 P(rain|wetgrass) ≈ 1,哪怕 P(wetgrass|rain) = 50%;也就是说,即使草只有在下雨时的一半情况下会变湿。证据永远来自两个条件概率之间的差异。强证据并不是来自「A 导致 X」这一概率极高,而是来自「非 A 也可能导致 X」这一概率极低。
科学中的贝叶斯革命之所以有动力,并不只是因为越来越多的认知科学家突然注意到,心智现象内部存在贝叶斯结构;也不只是因为各个领域的科学家都在学着把自己的统计方法拿来和贝叶斯方法比较;还因为这样一种观念:科学本身就是贝叶斯定理的一个特例;实验性证据就是贝叶斯证据。 贝叶斯革命者认为,当你做一个实验,并得到某种「确认」或「不确认」你的理论的证据时,这种确认与不确认,其实都受贝叶斯规则支配。举例来说,你不仅必须考虑你的理论是否预测了这个现象,还必须考虑其他可能的解释是否也预测了这个现象。
此前,最流行的科学哲学大概是 Karl Popper 的证伪主义(falsificationism)——这正是如今贝叶斯革命正在推翻的旧哲学。Karl Popper 认为,理论可以被明确地证伪,却永远不能被明确地证实;而这又只是贝叶斯规则的另一个特例:如果 P(X|A) ≈ 1——也就是理论作出了一个明确预测——那么观察到 ¬X 就会非常强烈地证伪 A。另一方面,如果 P(X|A) ≈ 1,而我们观察到了 X,这却并不能明确地证实该理论;因为也许还存在某个别的条件 B,使得 P(X|B) ≈ 1,在那种情况下,观察到 X 并不会让 A 相对于 B 更占优势。要让观察到 X 明确地证实 A,我们需要知道的就不是 P(X|A) ≈ 1,而是 P(X|¬A) ≈ 0;而这一点我们不可能知道,因为我们无法把所有可能的替代解释都枚举出来。比如说,当 Einstein 的广义相对论推翻 Newton 那套被证实得极其充分的引力理论时,人们才发现,Newton 的全部预测其实都只是 Einstein 预测的一个特例。
你甚至可以把 Popper 的哲学形式化成数学。对于 X 来说,似然比这个量——也就是 P(X|A)/P(X|¬A)——决定了观察到 X 会把 A 的概率推移多少;似然比正是说明 X 作为证据有多强的那个东西。好吧,在你的理论 A 里,你完全可以愿意的话把 X 预测成概率 1;但你无法控制似然比的分母,也就是 P(X|¬A)——总会有某些替代理论也同样预测 X,而虽然我们会选择与当前证据最符合的最简单理论,但某一天你也许会遇到某项证据,它会被某个替代理论预测到,而你的理论却没有预测到。这就是当年扳倒 Newton 引力理论的隐藏陷阱。所以,从成功预测中你能榨出的价值是有限的;确认性证据所能带来的似然比,再高也有上限。
另一方面,如果你碰到某项证据 Y,而你的理论明确地没有预测到它,那么这就是对你的理论极其强烈的反证。如果 P(Y|A) 小到近乎无穷小,那么似然比也会近乎无穷小。举例来说,如果 P(Y|A) 是 0.0001%,而 P(Y|¬A) 是 1%,那么似然比 P(Y|A)/P(Y|¬A) 就会是 1:10,000。这可是负 40 分贝的证据!或者把似然比倒过来看,如果 P(Y|A) 非常小,那么 P(Y|¬A)/P(Y|A) 就会非常大,这意味着观察到 Y 会极大地让 ¬A 相对于 A 更占优势。证伪比证实强得多。这正是前面那个观点的结果:非常强的证据,并不是「A 导致 X」的概率极高,而是「非 A 也可能导致 X」的概率极低。这就是支撑 Popper 证伪主义启发价值的那条精确贝叶斯规则。
类似地,Popper 那句「一个想法必须是可证伪的」的格言,也可以被理解为贝叶斯概率守恒规则的一种表现:如果结果 X 是支持某个理论的正面证据,那么结果 ¬X 就本该在某种程度上削弱这个理论。如果你试图把 X 和 ¬X 都解释成「确认」该理论,贝叶斯规则就会告诉你:这不可能!要提高一个理论的概率,你必须让它暴露在那些有可能降低其概率的检验之下;这不仅仅是为了在科学的社会过程中识别那些可能想作弊的人而设的一条规则,更是贝叶斯概率论本身的一个结果。另一方面,Popper 那个认为只有证伪而不存在什么证实的观点,结果却是错误的。贝叶斯定理表明,相较于证实,证伪确实是非常强的证据;但证伪本身仍然是概率性的,它并不受一套与证实根本不同的规则支配,而 Popper 当年正是那样主张的。
于是我们发现:认知科学中的许多现象,加上科学家所使用的统计方法,再加上科学方法本身,全都正在显现为贝叶斯定理的特例。于是便有了贝叶斯革命。
既然我们已经明确地引入了贝叶斯定理,现在就可以明确地讨论它的各个组成部分。
| P(A|X) | = | P(X|A) × P(A) |
||
| P(X|A) × P(A) + P(X|¬A) × P(¬A) |
我们先从 P(A|X) 开始。如果你哪天在贝叶斯定理里把 A 和 X 搞糊涂了,就先看等式左边的 P(A|X);这是最容易解释的一部分。在 P(A|X) 里,A 是我们想知道的东西。X 是我们观察它的方式;X 是我们用来对 A 作出推断的证据。记住,对于每一个表达式 P(Q|P),我们想知道的是:在给定 P 的条件下,Q 的概率是多少,也就是 P 在多大程度上蕴含 Q——一种更合理、但如今已经太晚无法采用的记号,也许应该写成 P(Q ← P)。
P(Q|P) 和 P(Q,P) 关系非常密切,但它们并不相同。把它表示成概率或比例时,P(Q,P) 指的是:在所有对象中,同时具有性质 Q 和性质 P 的对象所占比例;比如说,在所有女性组成的群体中,「患有乳腺癌且乳房 X 光检查结果为阳性的女性」所占比例。如果女性总数是 10,000 人,而其中 80 人既患有乳腺癌又乳房 X 光检查结果为阳性,那么 P(Q,P) 就是 80/10,000 = 0.8%。你可以说,绝对数量 80 被归一化成了相对于全体女性群体的一个概率。再说得更清楚一点,假设在总样本 89,031 名女性里,有一个由 641 名既患有乳腺癌又乳房 X 光检查结果为阳性的女性组成的群体。641 就是绝对数量。如果你从整个样本里随机抽出一名女性,那么你抽到一位既患有乳腺癌又乳房 X 光检查结果为阳性的女性的概率,就是 P(Q,P),也就是 0.72%(在这个例子里)。
另一方面,P(Q|P) 指的是:在所有具有 P 的对象中,同时具有性质 Q 和性质 P 的对象所占比例;比如说,在所有乳房 X 光检查结果为阳性的女性中,既患有乳腺癌又乳房 X 光检查结果为阳性的女性所占比例。如果有 641 名既患有乳腺癌又乳房 X 光检查结果为阳性的女性,7,915 名乳房 X 光检查结果为阳性的女性,以及 89,031 名女性,那么 P(Q,P) 是:如果你从 89,031 人这个整体里随机抽取,抽到那 641 名女性之一的概率;而 P(Q|P) 则是:如果你从较小的 7,915 人群体里随机抽取,抽到那 641 名女性之一的概率。
从某种意义上说,P(Q|P) 真正表示的是 P(Q,P|P),但每次都把额外那个 P 明写出来就太冗余了。你已经知道它具有性质 P,所以你正在考察的性质是 Q——尽管你实际上看的是组 (Q,P) 在组 P 内部的大小,而不是组 Q 在组 P 内部的大小(那样说就毫无意义了)。这就是把右边那个性质视作给定(given)是什么意思;意思就是,你知道自己只在那些具有性质 P 的对象所组成的群体里工作。当你把注意力的焦点收缩到只看这个较小群体时,许多其他概率也会随之改变。如果你把 P 视为给定,那么 P(Q,P) 就等于 P(Q)——至少是相对于组 P 而言。旧的 P(Q),也就是「在整个样本中具有性质 Q 的对象所占频率」,会被修正成新的频率,也就是「在具有性质 P 的子样本中,具有性质 Q 的对象所占频率」。如果 P 是给定的,如果 P 就是我们的整个世界,那么寻找 (Q,P) 就等于只是在寻找 Q。
如果你把注意力的焦点收缩到只看那些被涂成蓝色的蛋,那么「一个蛋里装着珍珠的概率」突然就会变成另一个数字;这个比例在蓝色蛋群体里和在全部蛋群体里是不一样的。这个给定——也就是那个收缩我们注意力焦点的性质——总是位于 P(Q|P) 的右边;P 成了我们的世界,成了我们所看到的全部,而在「给定」的另一边,P 的概率永远是 1——这就是把 P 视为给定的含义。所以 P(Q|P) 的意思就是:「如果 P 的概率是 1,那么 Q 的概率是多少?」或者说:「如果我们把注意力收缩到只看那些 P 为真的对象或事件,那么 Q 的概率是多少?」而在给定项另一边的那个命题 Q,则不是确定的——它的概率可能是 10%,也可能是 90%,或其他任何数字。所以,当你使用贝叶斯定理,并把左边那部分写成 P(A|X)——也就是在看到 X 之后如何更新 A 的概率,在我们知道 X 的给定条件下 A 的新概率,或者说 X 在多大程度上蕴含 A——你就能看出来,X 总是那个观察或证据,而 A 则是被考察的性质,是你想知道的那个东西。
贝叶斯定理右边那一侧,是通过以下步骤从左边推出的:
| P(A|X) | = | P(A|X) |
||
| P(A|X) | = | P(X,A) |
||
| P(X) |
| P(A|X) | = | P(X,A) |
||
| P(X,A) + P(X,¬A) |
| P(A|X) | = | P(X|A) × P(A) |
||
| P(X|A) × P(A) + P(X|¬A) × P(¬A) |
一旦推导完成,等式右边的所有蕴含都具有 P(X|A) 或 P(X|¬A) 这样的形式,而左边的蕴含则是 P(A|X)。这种对称性之所以出现,是因为最基本的因果关系,通常都是从事实指向观察的蕴含——比如,从乳腺癌指向阳性的乳房 X 光检查结果。而最基本的推理步骤,通常都是从观察指向事实的蕴含——比如,从阳性的乳房 X 光检查结果指向乳腺癌。贝叶斯定理左边,是一个基本的推断步骤:从观察到阳性的乳房 X 光检查结果,得出乳腺癌概率增加这一结论。蕴含是从右往左写的,所以我们把 P(cancer|positive) 写在等式左边。贝叶斯定理右边描述的,则是那些基本的因果步骤——例如,从乳腺癌到阳性的乳房 X 光检查结果——因此贝叶斯定理右边的蕴含就采取 P(positive|cancer) 或 P(positive|¬cancer) 这样的形式。
这就是贝叶斯定理。左端是理性推断,右端是物理因果;一边是心智,另一边是现实。如果你还记得,科学方法原来也被证明只是贝叶斯定理的一个特例,那么如果你想说得诗意一点,你可以说:贝叶斯定理把推理绑进了物理宇宙之中。
好了,我们讲完了。
贝叶斯牧师说:
你现在已经是贝叶斯密谋团的见习者了。
Ward Casscells, Arno Schoenberger, and Thomas Graboys, “Interpretation by Physicians of Clinical Laboratory Results,” New England Journal of Medicine 299 (1978): 999–1001. ↩︎
David M. Eddy, “Probabilistic Reasoning in Clinical Medicine: Problems and Opportunities,” in Judgement Under Uncertainty: Heuristics and Biases, ed. Daniel Kahneman, Paul Slovic, and Amos Tversky (Cambridge University Press, 1982). ↩︎
Gerd Gigerenzer and Ulrich Hoffrage, “How to Improve Bayesian Reasoning without Instruction: Frequency Formats,” Psychological Review 102 (1995): 684–704. ↩︎
Ibid. ↩︎
Edwin T. Jaynes, “Probability Theory, with Applications in Science and Engineering,” Unpublished manuscript (1974). ↩︎