第二章 归纳与统计概率
在第一章中,我们假定科学的规律是可以得到的。我们看到在科学和日常生活中,这些规律是怎样被应用来做已知事实的解释和未知事实的预言的工具。现在让我们问我们怎样得到这些规律的?我们对于一个规律成立的信念是在什么基础上得到辩护的?当然,我们知道,所有的规律都是建立在对某种规则性观察的基础上的,它们组成与关于事实的直接知识相对立的间接知识。是什么东西使我们能够证明从直接的事实观察中得出表达自然界的某种规则性的规律是正当的呢?在传统的术语中,这就是所谓“归纳问题”。
归纳常被拿来与演绎相对照,演绎是从一般走向特殊和个别,而归纳走的是另一条道路——从个别到一般。这是过分简单化的误导。在演绎中,有着各种推理而不单是从一般到特殊;在归纳中,同样有许多推理的种类。这种传统的区分也会引起误导,因为它暗示着演绎与归纳只不过是单一的逻辑的两个分支。约翰·斯图尔特·穆勒的名著《逻辑系统》对他所谓的“归纳逻辑”有一段很长的描述并说明归纳步骤的各种标准。今天我们比较不爱用“归纳推理”一词。如果要用,我们必须认识到它所诉诸推理的性质与演绎基本上不相同。
在演绎逻辑中,从一组前提中推导出结论,其确凿程度正好与这个前提一样。如果你有理由相信这个前提,你就有同样有效的理由去相信那个逻辑地从这个前提中导出的结论。如果前提是真的,则结论不可能不真。至于归纳,情况完全不同。一个归纳结论的真理性从来不是必然的。我的意思不是说只是由于其所依据的前提并非必然确知,所以其结论不可能是确凿的。即使前提被假定为真的并且推理是一个正当的归纳推理,其结论也可能是错的。至多我们只能说,对于给定的前提,结论具有某种概率的确凿度。归纳逻辑教导我们怎样去计算这种概率的值。
我们知道,通过观察获得的关于事实的单称陈述,从来不是绝对确凿的,因为在我们的观察中我们可能犯错误,但是,至于说到规律,这里存在着更大的不确定性。关于世界的一个规律陈述在任何特定情况下,在任何地方和任何时间,如果有一个事情是真的,则另一个事情也是真的。非常清楚,这里讲的是有关无限的可能的实例。现实的实例不会是无限的,但这里却是无限的实例。某一个生理规律说明,如果你将匕首刺入任何一个人的心窝,那个人就会死。由于从来没有观察到这个规律的例外情况,它被当作一个全称规律来接受。当然,迄今观察到的匕首插入人心窝的大量实例是有限的,这是真的。很可能有一天人类将不复存在,在这种情况下,人类的数目无论是过去的还是未来的,都是有限的。但我们不知道人类将不复存在,因此,我们必须说,这里有无限的可能实例,所有这些都是规律所涵盖的;而且,如果存在着无限的实例,就没有任何不管多么大的有限观察的数目能使“全称”规律确凿无误。
的确,我们能继续进行下去,做出越来越多的观察,并尽可能以细心的科学的方式来进行观察,终于我们可以说:“这个规律已经检验了这么多次,以至我们能够完全确信它的真理性。它是很好地确立起来的很好地被发现的规律。”但是,如果我们思考这个问题,我们就会发现,甚至被发现的最好的物理学规律都必定建基于有限数目的观察之上,总是可能在明天就发现一个反例的。任何时候都不能达到对一个规律的完全证实。事实上我们全然不能说“证实”(verification)——如果我们用这个词来表示真理的最后确立的话——我们只能说确证(confirmation)。
有趣的是,虽然没有一种方法可以证实(在严格的意义上)一个规律,但却存在一个简单的方法来证伪它,人们只需要找到一个反例。有关一个反例的知识自身可能是不确实的。你可能犯了一个观察的错误,或者以某种方式受欺骗了,但如果我们假定这反例是事实,则规律立刻随之被否定。如果一个规律说,所有是P的对象也是Q,而我们发现有一个对象是P而不是Q,这个规律就被驳倒。一百万个肯定的实例对于证实这个规律来说是不充分的;一个反例对于证伪来说却是充分的。这种情况是极不对称的。驳倒一个规律是容易的,而找到强有力的确证是极端困难的。
我们怎样寻找对一个规律的确证呢?如果我们已观察到极大量的肯定实例而无否定实例,我们说这确证是强的。它有多强以及其强度是否可以用数目来表达这个问题,迄今在科学哲学中仍是一个引起争论的问题。等一会儿我们再回到这个问题上来。这里我们关心的只是搞清楚我们寻找一个规律的确证的第一个任务,乃是检验实例来决定它们是肯定的还是否定的。这个工作是通过用我们的逻辑图式作预言来做的。一个规律陈述了(x)(Px⊃Qx),因而对于一个给定的对象a,Pa⊃Qa。我们试图寻找尽可能多的具有性质P的对象(这里用符号“a”表示),然后我们观察它们是否也满足条件Q。如果我们找到否定实例,事情就此了结,否则,每一个实例乃是增加我们的确证强度的补充证据。
的确,对于有效的检验来说,存在着各种各样的方法论规则。例如,实例应该尽可能多样化。如果你对热膨胀定律进行检验,你不应只限于检验固体物质。如果你要对所有的金属都是电的良导体规律进行检验,你不应只限于检验铜样品,你必须在各种不同条件下——热、冷等——检验尽可能多的金属。我们将不去探究检验的各种方法论规则,我们将只指出,在所有情况下,规律是用做出预言然后看这些预言是否成立来进行检验的。在某种场合,我们寻找我们要检验的天然对象。在另一种场合下,我们要生产出这个对象。例如在检验热膨胀定律中,我们找不到热物体,就取某种物体进行加热。对于检验来说,生产具有极为有利的条件,它使我们能够比较容易地遵循多样化的方法论规则;但无论我们是创造情况进行检验还是在自然界寻找现成的情况来进行检验,所依据的图式是一样的。
刚才我提出一个规律(或我们依据规律预言的单称陈述)的确证程度能否在定量的形式中表达出来的问题。不说某一个规律被“很好地发现”以及另一个规律“建立在脆弱的证据的基础上”,我们应该说第一个规律有0.8的确证度而第二个规律的确证度只有0.2。这个问题已经进行了长期的争论。我自己的观点是:这样的做法是合理的,而我曾称为“确证度”的东西与逻辑概率完全相同。
这样的陈述并不说明什么问题,除非我们知道“逻辑概率”是什么意思。为什么我要加上形容词“逻辑的”?这并非通常的习惯做法,许多论概率的书不对各种不同性质的概率做出区别,其中有一种概率被称为“逻辑的”概率。但我深信存在着两种性质基本不同的概率,我区别它们称其中一种为“统计概率”,而另一种为“逻辑概率”。不幸的是,同样一个词“概率”被用于两种极为不相同的意义。在一些科学哲学的书中以及科学家们自己的论述中,不能做出这种区别是造成极大混乱的根源。
我有时用“归纳概率”一词来代替“逻辑概率”,这是因为,在我的概念中,这是一种表明每当我们做出一个归纳推理时的概率。用“归纳推理”一词,我指的是不仅从事实到规律的推理,而且,是“非证明性”的任何一种推理,这就是一种当假定前提为真而其结论并非逻辑必然地导出的推理,这样的推理必须用我们所称谓的“逻辑概率”或“归纳概率”的一定的度数来表达。为了搞清楚这种概率和统计概率之间的区别,简短地回顾一下概率理论的历史是有用的。
第一个概率理论,现在常称为“经典理论”,是在18世纪提出的。雅可比·贝努利(1654—1705)第一个写论文系统论述这个问题,托马斯·贝叶斯牧师做出了重要贡献。到了这个世纪末,伟大的数学家和物理学家皮埃尔·西蒙·德·拉普拉斯写了第一本关于这个主题的巨著。那是概率理论的全面的数学的详细论述,并可被认为是经典时代的顶峰。
贯穿整个经典时代的概率的应用,主要的是像玩骰子、玩纸牌以及轮盘赌之类的机会赌博。实际上,这个理论起源于这样的事实,当时的某些赌徒们曾请求皮埃尔·费尔玛和其他数学家为他们计算包含于某些机会赌博的精确概率。所以这个理论发端于具体问题而不是发端于一般数学理论。数学家们发现,奇怪的是,这类问题是能够解决的,虽然没有什么数学领域可提供这种解答。结果,他们提出了组合理论,这个理论能运用于机会问题。
提出经典理论的这些人们用“概率”来理解什么呢?他们提出了一个直至今天还可在基本教材中找到的概率定义:概率乃是有利事件的数目与所有可能事件的数目之比。让我们看看在一个简单的例子中这是怎样计算的。某人说:“我将要投掷这个骰子。我掷得一点或二点的概率是多少?”按经典理论,其回答如下:这里有两种“有利的”即满足问题给定条件的事件,这里骰子掷下共有六种可能的事件。因此,有利事件与可能事件之比为26或13。我们回答这个问题说,骰子显示一点或二点的概率为1/3。
所有这些看来都非常清楚,非常明白,但对于这个理论还有一个重要的障碍。经典作家们指出,当人们运用他们的概率概念之前,必须保证其中所有的事件都是等可能的。现在我们似乎陷入一个恶性循环中,我们企图说明我们用概率来表示什么意思,而这样做的时候,我们运用了“等可能性”概念。实际上,经典理论的支持者们并不是将等可能性概念仅仅塞进那些术语。他们说事件必须是“等可能的”,进而用一著名原则即他们称为“不充足理由原则”来定义“等可能性”。今天这个原则通常被称为“无差别原则”。如果你不知道为什么应是某一事件出现而不是另一事件出现的任何理由,则这些事件是“等可能的”。
简言之,这就是经典时期定义概率的方法。在经典研究的基础上,一个全面的数学理论建立起来了,而这里我们关心的问题只是这个理论——概率的经典定义——的基础对科学来说是不是充分的。
到了19世纪,慢慢地有少数人提出反对经典定义的意见。在20世纪,大约1920年,理查德·冯·米西斯和汉斯·赖辛巴赫对经典的研究作了强有力的批判。[1]米西斯说,“等可能性”除了在“等概率”的意义上是不能被理解的。如果这就是它的意思,那我们的确陷入恶性循环之中。米西斯断言,经典的传统是循环的,因而是无用的。
米西斯还有另一个反对理由。他同意,在某种简单的场合下,我们能够依照常识知道某些事件是等可能的。当一个钱币往上抛滚时,我们能够说正面和反面的结果是等可能的,因为我们不知道有任何理由说明为什么将会翻这一面而不是那一面。轮盘赌的情况也是一样,没有理由说明为什么这个球掉进这一格中而不是掉进另一格中。如果所玩的纸牌都是同样大小同样形状,背面是一样的并且经过很好的洗牌,则某一张纸牌发给每一个玩牌者的机会几乎是一样的。这样的例子再一次表明等可能性的条件被满足。但是,米西斯进一步说,没有一个经典作者指出概率的这个定义怎样能够运用于其他更多的情形。试考察死亡率表。保险公司必须知道在美国一个无严重疾病的40岁的人活到同一指定的年龄的概率,他们必须能够计算出这类概率,因为他们要依据这个概率来确定保险费。
米西斯问道,对于一个人来说,什么是等可能的事件?史密斯先生申请人寿保险。公司将他送到医院体检。医生报告说史密斯先生无严重疾病而他的出生证指明他现年40岁。公司查看他的死亡率表,然后,在人的可能的估计寿命的基础上,公司向他提供在一定保险费下的人寿保险。史密斯先生可能在他达到4l岁之前死去,也可能活到100岁。一个人多活几年的概率会随着他的年龄的增长而下降。假定他45岁死亡,这对保险公司来说是个坏情况,因为他只支付了很少的保险费而现在公司必须付出20000美元给他的受益人。等可能性的事件在哪里?史密斯先生可能在40岁或41岁或42岁时死去等,这些都是可能事件,但它们并非等可能的;他在120岁时死去是极不可能的。
米西斯指出,将概率运用于社会科学,天气预报甚至运用于物理学也普遍存在着类似的情况。这些情况不像碰运气的游戏,在碰运气的游戏中可能的结果能够匀称地划分为n个相互排斥的完全可以穷尽的事件,它们满足等可能性的条件。一块小的放射性物质在下一秒钟或者发射α粒子或者不发射,放射这种粒子的概率比如说是0.0374,那里有没有等可能性的事件呢?没有,我们只有两种情况:或者在下一秒钟它将会发射α粒子或者它将不发射。这就是米西斯对经典理论的主要批评意见。
米西斯和赖辛巴赫都谈到建设性的方面。我们用概率来实际表示的东西与计算情况无关,它是“相对频率”的一种量度,我们用“绝对频率”表示对象或事件的总数。例如,洛杉矶去年死于肺结核的人数,我们用“相对频率”表示这个数目与被研究的比较大的类的数目(如居住在洛杉矶的总人数)的比率。
米西斯说,我们能够谈论骰子掷得某一面的概率,这不仅是在完美骰子的情况下,那里它是1/6,而且是在所有型号灌铅骰子的情况下。假定某人断言,他持有的这个骰子已灌了铅并且它出现一点的概率不是1/6,而是少于1/6。其他的某一个人说:“我同意你的意见,骰子已灌了铅,但不是你所相信的那样。我想一点的概率大于1/6。”米西斯指出,为了弄清他们俩人的分歧断语是什么意思,我们必须查看他们试图建立他们的意见的方法。当然,他们会做经验的检验,他们会多次抛掷骰子,记录投抛的次数和得一点的次数。
他们投掷骰子多少次呢?假定他们投掷100次并发现一点出现15次,这里略少于100的1/6。这不是将会证明第一个人是正确的吗?另一个人会说:“不!我仍然认为这个概率大于1/6。100次投掷对于一个足够适当的试验来说是不充分的。”也许这人继续投掷骰子一直到投抛了6000次为止。如果出现一点的那一面少于1000次,第二个人可能决定放弃进一步试验,他说:“你是正确的,这个概率少于1/6。”
为什么这两个人做了6000次试验就不做了呢?可能他们投掷得疲倦了。也许他们打赌骰子按一定的方法灌了铅,而他们不愿仅仅为了几个钱就花上三几天来做投掷试验。不过,试验了6000次就停止下来,这纯粹是任意的。如果在6000次投掷以后,得一点的数目非常接近1000,他们可能认为问题仍未确定。一个小小的偏离可能由于机遇,而不是由于骰子自身的物理倾向,在更长的竞赛中,这个倾向会引起反方向的偏离。为了做进一步的决定性试验,这两个人会决定继续进行到60000次投掷。明显地,无论投掷的数目多大,没有什么有限的投掷数目能使他们停下来并肯定有把握说,得一点的概率是1/6或少于1/6或大于1/6。
由于对于确定概率来说,不存在有限次数的试验可以说是充分的,那么怎样用频率来定义概率呢?米西斯和赖辛巴赫提议不将它定义为在实例的有限系列中的相对频率,而定义为在无限系列中相对频率的极限。(正是这个定义使得米西斯和赖辛巴赫的观点与英国的R.A.菲希尔以及其他也批判经典理论的统计学家的观点相区别。后者不是通过定义而是作为一公理系统中的原始词项而引进概率的频率概念的。)当然,米西斯和赖辛巴赫很好地意识到(虽然他们常被批评没有意识到)没有任何观察者能完成有效观察的无限系列。但我想当他们的批评家说概率的新定义没有应用时,这些人是错误的。无论赖辛巴赫还是米西斯都曾指出,许多定理都能在他们的定义的基础上发展出来,借助于这些定理我们能说明某些东西是有意义的。我们不能确定地说一个概率的值是多少,但如果系列足够长,我们能够说这个概率很可能是多少。在骰子的实例中,我们可以说掷得一点的概率大于1/6的概率是非常小的,也许这种概率的概率甚至是能计算的。极限概念用于这一定义和运用无限系列做推理这个事实必定在逻辑上和实践上带来复杂性和困难,但它们没有造成为某些批判家所断言的那种无意义定义。
赖辛巴赫和米西斯同意这样的观点,即建立在无限系列中的相对频率的极限的基础上的概率概念是科学上唯一可接受的概念。从无差别原理推导出来的经典定义是不充分的。除了米西斯和赖辛巴赫的定义之外,没有新的定义能超过旧的定义。但现在令人烦恼的单个实例问题再一次产生了。对于统计现象,新的定义工作得很好,但它怎样运用于单个的场合?一个气象学家宣布明天下雨的概率为2/3,“明天”关涉一个特殊日子而不是其他日子。像运用于人寿保险的某人的死亡一样,是单个的、不重复的事件;但我们仍然需要赋予它以一个概率,怎样在频率定义的基础上来干这件事呢?
米西斯想这事是不可能的,因而对单个场合,概率陈述应该排除。但赖辛巴赫认识到,无论在科学上还是在日常生活里,我们经常做出有关单个事件的概率陈述,他认为,为这种陈述寻找合理的解释将会是有用的。在天气预报中,给出这样一种解释是容易的。气象学家获得过去天气观察的大量报告,也获得有关今天天气的资料,他发现今日的天气属于某一个类型,而在过去,当这类天气出现之时,第二天下雨的相对频率为2/3。按赖辛巴赫的说法,于是气象学家做出了一个“假定”,这就是他假定建立在有限的然而却是长系列的观察基础上的这个2/3的观察频率也是无限系列的极限,换言之,他估计这极限就在2/3的领域里。于是他做出这陈述:“明天下雨的概率为2/3。”
赖辛巴赫继续说,气象学家的这个陈述应被认为是一省略的陈述,如果他将它扩大到完全的意义,他会说:“按照我们过去的观察,像我们在今日所观察到的那种天气状态将以2/3的频率于第二天下雨。”这个缩写的陈述看来是将概率运用于一个单个场合,不过这只是一种讲法。这陈述真的归结为在长系列中的相对频率。下面的陈述同样会是真的:“在骰子的下一次投掷中,得一点的概率为1/6。”“下一掷”如同“明天天气”一样,是一个单个的、唯一的事件。当我们将概率归之于它时,我们真的省略地讲到在一长系列的投掷中的相对频率。
按照这种方法,赖辛巴赫为将概率赋予单个事件的陈述找到了一种解释,他甚至尝试为将概率赋予科学中的一般假说的陈述寻找一种解释。这里我们将不予介绍,因为它是比较复杂的,并且因为(与他的单个概率预言的解释相对照)它没有得到普遍的承认。
在概率论的历史中,另一个重要的发展乃是逻辑概率概念的兴起,这是1920年后由著名英国经济学家约翰·梅纳德·凯恩斯提出,此后并为许多名家精心研究过的。今天这种逻辑概率概念的支持者和频率解释的支持者之间存在着激烈的论战。下一章我们将要讨论这个论战以及我所考虑的解决这个问题的方法。
[1] 关于米西斯和赖辛巴赫的观点,参见理查德·冯·米西斯《概率,统计与真理》(纽约:麦克米兰公司,1939)一书和汉斯·赖辛巴赫《概率理论》(加利福尼亚州伯克利市:加利福尼亚大学版,1949)一书。