1.7.1 什么是贝叶斯定理
预测在生活中必不可少,比如决定是否购买更多的股票、预测某个球队是否获胜、确定下个月是否外出旅游等。要做出准确的预测,不仅需要得到某个事件发生概率的理论值,还要结合实际经验做出合理判断。换句话说,人对某一事件未来会发生的认知,大多取决于该事件或类似事件过去发生的频率。这就是贝叶斯定理的数学模型,它最早由数学家托马斯·贝叶斯提出。
贝叶斯生活在18世纪,他的本职工作是一位英格兰长老会的牧师。1763年,他发表了论文《论有关机遇问题的求解》,提出了一种解决问题的框架思路,即通过不断增加信息和经验,逐步逼近真相或理解未知。这种思想奠定了贝叶斯理论的基础。贝叶斯定理的过程可以归纳为:“过去经验”加上“新的证据”得到“修正后的判断”。它提供了一种将新观察到的证据和已有的经验结合起来进行推断的客观方法。
假设有随机事件A和B,它们的条件概率关系可以用以下数学公式表达:
其中,事件A是要考察的目标事件,P(A)是事件A的初始概率,称为先验概率,它是根据一些先前的观测或者经验得到的概率。
B是新出现的一个事件,它会影响事件A。P(B)表示事件B发生的概率。
P(B|A)表示当A发生时B的概率,它是一个条件概率。
P(A|B)表示当B发生时A的概率(也是条件概率),它是我们要计算的后验概率,指在得到一些观测信息后某事件发生的概率。
贝叶斯公式给出了通过先验概率和条件概率求出后验概率的方法。举个例子,我们假设A事件代表堵车,B事件代表下雨,并且已知以下数据:
某天下雨的概率是40%,即P(下雨)=0.4。
上班堵车的概率是80%,即P(堵车)=0.8。
如果上班堵车,则这天是雨天的概率有30%,即P(下雨|堵车)=0.3。
那么,我们就能求出下雨天上班堵车的概率:
P(堵车|下雨)
=P(堵车)×P(下雨|堵车)÷P(下雨)
=0.8×0.3÷0.4
=0.6
这个计算并不复杂,但蕴含着深刻的含义。有时,先验概率很容易得到,但对于不同的条件概率,其计算难度差别很大。比如医生可以在心脏病人中统计男女占比,但很少会在只知道对方性别的情况下诊断对方得心脏病的概率。
另外,根据贝叶斯公式,先验概率一般是由以往的数据分析或统计得到的概率数据。后验概率是在某些条件下发生的概率,是在得到信息之后再重新加以修正的概率。也就是说,后验概率可以在先验概率的基础上进行修正并得到。
1.贝叶斯派和频率派
基于贝叶斯的思考方式几乎无时无刻不在发生。
人通常很少做出绝对的判断,但会做出相对可信的推断,并根据新的证据不断更新之前的结论。比方说,没有一个程序员能保证自己写出来的代码没有任何缺陷。但是我们可以对它进行大量验证,每通过一项测试,我们就更有把握确保这段代码的质量。
在贝叶斯派的世界观中,概率是被解释为人们对一件事情发生的相信程度,也就是信心。假设你不确定一件事情的发生概率,但你知道一定存在这个概率值,于是你开始不断重复做试验,并记录下每次的结果。刚开始时,得到的后验概率是不稳定的。但随着试验次数的增加,观测值的出现概率会越来越接近它的真实概率值。在这个过程中,我们不是从随机性里推断出确定性,而是保留了不确定性。这是贝叶斯派的思考方式。
不过,持有频率派观点的人对概率有另一种解释。他们认为概率是事件在长时间内发生的频率,也就是发生次数。比如,汽车事故发生的概率,可以认为是一段时间内发生车辆事故的次数。不过人们发现,这个定义不适用于一些特殊情况,尤其是只会发生一次的事件。试想一下,选举时我们讨论某个候选人的获选概率,但选举本身在未来只会发生一次,永远得不到多次选举的数据。
为了解决这个矛盾,频率派提出了“替代现实”的说法,套用今天物理学里的概念就是平行宇宙,频率派认为概率是所有平行宇宙中发生的频率。
有时,把概率理解为信心或频率并不影响结果。比如一个人对汽车事故发生的信心就等同于他了解到的汽车事故的频率。但有时,用贝叶斯派的观点来解释概率显得更加自然。比如大会选举的例子,贝叶斯派不用考虑什么平行宇宙,只要考虑对候选人的获胜信心,把它当作选举成功的概率,这种理解具有现实意义。
贝叶斯派认为概率代表了个人观点,每个人都能给出自己认定的事件概率,它因人而异,没有唯一的标准。某人把概率0赋予某个事件,表明他完全确定此事不会发生;如果概率是1,则说明他确信此事一定会发生。概率值在0和1之间,表示他心目中此事发生的可能性。这种观点为人与人之间的认知差异保留了余地。每个人拥有不同的信息、认知、判断,这些差异导致了不同的人对同一事件发生有着不同的信心,这并不代表别人就是错的。比如我在抛硬币后偷看了结果,我就能确定某个结果出现的概率是1。显然,我获得的额外信息并不会改变硬币本身的结果,但会使我和别人对结果赋予不同的概率值。
在贝叶斯派看来,对一个事件发生的信心等同于概率。这似乎是人们长期以来和现实世界打交道的方式。很多情况下,人们只能了解部分真相,但可以通过不断收集证据来修正自己的观念。
频率派和贝叶斯派在考察不确定性时的出发点各不相同。频率派认为事件本身具有某种客观的随机性,而贝叶斯派认为这不是事件的问题,而是观察者不知道事件的结果。观察者对事件了解得越多,拥有的证据越多,他对事件的判断就越准确。
2.贝叶斯推断与应用
基于贝叶斯的推理与应用为何这些年来广为流传,为人津津乐道?答案是因为大数据。过去没有大数据,所以先验概率很难获得。这些年来,很多数据被人们积累下来,贝叶斯模型的运用领域也越来越广泛。比如在一些语言翻译的网站、医疗诊断的仪器中,就会用到贝叶斯的统计方法。还有在电子邮件软件中,也集成了基于贝叶斯方法的垃圾邮件过滤功能。
贝叶斯定理告诉我们,即便获得了新的证据,也不要完全放弃初始的信念。新的证据会让我们对某些结果更有信心,或帮助我们修正初始信念的错误。就是说,我们既要关注新的证据,又不能忽略初始信念。新的证据很重要,因为初始信念可能是错的,这些证据可以用于做出修正。但同时,初始信念仍然是重要的基础,不能只根据新证据就草率地做出判断。关于这一点,让我们来举些例子。
假设中年妇女有1%的概率患有乳腺癌。有一台医疗设备能检验女性胸部肿瘤。根据已有检测数据,这台设备有80%的概率能正确诊断出乳腺癌。但对于健康女性,它也有10%的概率做出误判。现在假设有一位妇女的检查结果呈阳性,她被查出患有乳腺癌,那么她真正得癌的概率是多少?
大部分医生认为既然设备已经检查出了阳性,这位女性患有乳腺癌的概率就该很高,他们给出的答案通常在75%左右。但实际上,这个答案被高估了10倍。贝叶斯定理告诉我们,1%的先验概率,不会立刻变成75%的后验概率,它只会增加到7.5%。很多医生往往过于强调设备的准确率,认为检查结果呈阳性,这位妇女患乳腺癌的概率就应该和设备的准确率差不多,在80%左右。但这种直觉判断是错的。我们必须把更多的注意力放在患乳腺癌的女性的初始比例(即先验概率)以及健康女性是假阳性的概率上。因为健康女性的占比远高于患乳腺癌的人,所以她们被误诊为阳性的可能性也更大,这个数据不能轻易忽视。
再比如,假设一个盒子里放了很多球,其中红球占85%,绿球占15%。有人从盒子中拿出一个球,这个人有色弱,假设他分辨颜色的准确率是80%。如果这个人说这是一个绿球,那么这个球是绿色的概率是多少呢?
让我们来做一次计算:由于红色的球被看成是绿色的概率是85%×20%,绿色的球被看成是绿色的概率是15%×80%,所以这个球是绿色的概率是。
也就是说,尽管这个人看到的是绿球,而且他分辨颜色的准确率达到80%,因为绿球本身的基数小,所以这个球是红球的可能性更大。
通过上面两个例子,我们可以发现,当先验概率足够强大时,即使出现新的证据,先验概率也会表现出惊人的影响力。这给我们的启示是,不能只把焦点放在最新获得的信息上,同时要关注全局,考虑先验概率这个重要前提。