1.6.1 女士品茶
假如你的面前放着一杯奶茶,你能只喝一口就分辨出冲泡这杯奶茶时,是先放的奶还是先放的茶?也许你不能,但这世上有人能。
20世纪20年代末,一个夏日的午后,英国剑桥大学里一群大学教员与他们的家人和朋友聚在一起闲聊。此时突然有一位女士提出,将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。当时,在座很多人并没把它当回事,因为无论是先放奶还是先放茶,最终两者都会融合在一起,这能有什么区别呢?两种液体的混合物在化学成分上不可能有任何区别。
总有一些人能关注到平常生活里的不平常。现场有一位叫费希尔(Fisher)的数学家对这一话题抱有浓厚的兴趣。他思索着,是否可以设计出一种实验,或者运用什么数学方法,来检验对方有没有撒谎。
这个问题的难点在于,怎样才能判断对方具有分辨两种茶的能力?即便这位女士没有辨茶能力,她也有50%的概率说对一杯奶茶的调制顺序。给她两杯茶,她仍然可能猜对。那要给多少杯茶,才能消除对她判断的质疑呢?更进一步,数学上是否可以对某种假设的成立性进行检验和判断?
费希尔对这类问题进行了大量数学研究。最终他成功设计了一种实验,证明了那位女士确实可以正确判断奶茶的制作顺序。他是这么做的:首先准备8杯奶茶,4杯用了茶加奶的方式混合,另外4杯用了奶加茶的方式混合。随后将它们随意打乱,提供给女士品尝。根据计算,这8杯茶中任意4杯先放奶、其余4杯先倒茶的排列组合共有70种,想要正确分辨所有奶茶的调制顺序,相当于是从这70种可能性中找到唯一正确的一种可能。如果是靠猜的(也就是随机选择),就只有1/70≈1.43%的概率能全部猜对。假设这个低概率事件真的发生了,那就表明这位女士大概率不是靠猜的,而是掌握了某种可以正确分辨奶茶调制顺序的技巧。而根据当时在场人士的回忆,最终女士分辨对了所有茶的制作顺序。
这个故事来自经典的统计学读物《女士品茶》,故事中的费希尔是现代统计学的奠基人之一,实验的详情记录在他1935年的著作《实验设计》(The Design of Experiments)中。费希尔发表了多篇有关假设检验的论文,他还创立了统计学中常用的T分布检验和F分布检验。故事中提到的女士——穆里尔·布里斯托(Muriel Bristol)博士,她比费希尔大两岁,是一位藻类学家,在藻类获取营养机制方面颇有建树。不过令她意想不到的是,公众对她的熟知主要来自“品茶的女士”这一身份。
关于费希尔的品茶实验,涉及统计学里非常重要的检验工具——假设检验。
1.假设检验的基本方法
假设检验的基本思想是这样的:为了检验一个假设是否成立,就先假设它是成立的,然后看看会产生怎样的后果。当观测结果出现的概率非常低时,我们就认为原先的假设是不成立的,可以拒绝这个假设。反之,不能拒绝这个假设。请注意,这里只是说不能拒绝这个假设,并不表示接受原先的假设,这两种说法要表达的含义是不同的。
假设检验使用的是反证法,它是一种推翻既定假设的工具。我们给出一个假定结论,然后用统计的方法去验证它是否靠谱。假设检验就是这样一种在待检验假设成立时计算观测结果出现概率的统计方法。
数学上要证明一种现象不合理,并不是说它的形式逻辑存在绝对的矛盾,只是认为小概率事件在一次观察中基本不会发生。比如前面提到的女士品茶例子,布里斯托女士全部猜对8杯茶的概率只有1.43%,虽然它仍然可能发生,但我们做出的基本判断是“她不是猜的”。就是说,如果一个假设导致了小概率事件发生,那么它大概率是不合理的。
假设检验在数学上有着很广泛的应用。比如我们手上已经有了一组数据,但不清楚它的总体分布函数,又或者只知道它的数学分布形式,但不清楚具体参数。此时为了推断总体分布的某些特性,我们可以先提出假设:如假定总体是服从泊松分布的,又或者假设服从正态分布的总体的数学期望是某个数值等。随后,我们根据手上的样本数据,判断这些假设是要接受还是要拒绝。假设检验就是这样的一种决策过程。
假设检验也称为显著性检验。在统计学发展的早期,人们用显著(significance)一词表示概率足够低,足以拒绝假设。在19世纪的英语语境中,如果某类数据是“显著”的,则表示它具有一定的含义,会说明一些事情。不过到了20世纪,“显著”一词逐渐扩展了它的含义,它开始表示某件事情十分重要。今天的统计理论仍然沿用了“显著”这个词语,用来表示某个待检验假设的出现概率“非常低”,不是说这个概率“很重要”。仅仅通过字面意思很容易混淆两者的概念。
2.置信区间的概念
当进行参数估计时,我们除了想知道参数的平均值,有时也关心它的精确程度,也就是上限和下限。比如在生产元件时,通常希望知道这些元器件的寿命处于哪个区间范围,这个区间在数学上称为置信区间。
1934年,内曼发表了题为《论代表方法的两个不同方面》(“On the Two Different Aspects of the Representative Method”)的论文。在论文的附录中,内曼提出了一种确定区间估计及其准确性的简单方法,他把这个估计的区间称为置信区间,并将置信区间的两端称为置信界限。内曼曾在论文中对如何理解置信区间做过说明。他认为,应该站在过程的角度看待置信区间,而不是盯住结论。对于置信水平是95%的置信区间,表明在100次判断中,参数真值有95次落在特定区间。也就是说,95%这个概率不是用于判断结论正确与否的概率,而是指人们运用统计方法在多次实践后做出正确判断的概率。它与当下估计的准确性或人的主观信心并没有关系。不过,今天很多人(或在很多统计学书上)会告诉你:置信水平为95%的置信区间代表了人们有95%的把握和信心,相信某个参数落在特定区间。这么想其实已经背离了统计学家最初对它定义的本意。
假设检验具有严谨的数学逻辑。我们根据统计数据,判断当前假设是否有概率出错,但并不否定没有出错的可能。也就是说,想要推翻某个假设,我们只要找到一个反例,但要证明假设是对的,则必须验证这个假设的所有可能性。实际上,我们并没有证明假设的正确性,而只是证明了我们无法证明它是错的。
3.卡方检验法
假设检验有很多种方法,比如在已知总体分布形式的前提下,根据不同的总体情况,可以使用Z检验法、T检验法、F检验法来判断假设是否足以拒绝。在实际问题中,有时我们不知道总体服从何种类型的分布,这时需要根据样本来检验分布的假设,这种情况下比较常用的是卡方检验法。
举例来说,我们拥有一些关于蝴蝶和蜻蜓的昆虫样本,想要知道它们的数量是否均等。于是,我们先假设蝴蝶和蜻蜓数量均等,然后从中随机选择100只昆虫作为样本,结果选出了10只蜻蜓和90只蝴蝶。那么,我们是否能认为最初关于蝴蝶和蜻蜓数量均等的假设是正确的呢?
在这个例子中,我们抽样所得的数据(实际值)与预期结果(理论值)相差较大,可以使用卡方检验法来检验原来的假设。卡方检验法最早出现在英国数学家皮尔逊1900年发表的论文中。使用卡方检验时,需要保证事件必须以独立的形式分别发生,一旦得到了实际值Oi和理论值Ei(也就是期望值),就可以使用公式计算出卡方值。实际值和期望值如果是相同的,它的卡方值就等于零。两者相差越大,卡方值就越大。
回到昆虫抽样的例子中,我们实际抽到了10只蜻蜓和90只蝴蝶,而期望值是50只蝴蝶和50只蜻蜓。此时卡方值χ2=(10−50)2/50+(90−50)2/50=64。这个数很大(超过了卡方分布的临界值),因此可以认为最初的假设(即蝴蝶和蜻蜓来自数量均等的昆虫群)是不正确的,有理由拒绝这个假设。
[1] 数学上称原假设或零假设,它的对立假设是备择假设。
[2] 泊松分布是法国数学家泊松于1838年提出的。它可以描述某段时间内,某个随机事件发生的次数。生活中有很多实际应用是满足泊松分布的,比如:书中每页的印刷错误数;单位时间间隔内某种放射性物质发出的粒子数;医院中每天的急诊病人数等。
[3] 数学期望代表了事件每次可能的结果乘以其结果发生的概率的总和。