统计学习理论与方法:R语言版
上QQ阅读APP看书,第一时间看更新

1.4 概率论中的重要定理

本节介绍概率论中最为基础也最为重要的两个定理,即大数定理及中央极限定理。

1.4.1 大数定理

法国数学家蒲丰曾经做过一个非常著名的掷硬币试验,发现硬币正面出现的次数与反面出现的次数总是十分相近的,投掷的次数愈多,正反面出现的次数便愈接近。其实,历史上很多数学家都做过类似的实验,如表1-2所示。从中不难发现,试验次数愈多,其结果便愈接近在一个常数附近摆动。

正如恩格斯所说的:“在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐藏着的规律支配的,而问题只是在于发现这些规律。”掷硬币这个实验所反映出来的规律在概率论中称为大数定理,又称大数法则。它是描述相当多次数重复试验结果的定律。根据这个定律知道,样本数量越多,则其平均就越趋近期望值。

表1-2 掷硬币实验

定理:(马尔科夫不等式)设X为取非负值的随机变量,则对于任何常数a≥0,有

证明:对于a≥0,令

由于X≥0,所以有

两边求期望,得

上式说明EX]/aEI]=PXa},即定理得证。

作为推论,可得下述定理。

定理:(切比雪夫不等式)设X是一随机变量,它的期望EX)=μ,方差DX)=σ2,则对任意k>0,有

证明:由于(X-μ2为非负随机变量,利用马尔科夫不等式,得

由于(X-μ2k2与|X-μ|≥|k|是等价的,因此

所以结论得证。

马尔科夫(Markov)不等式和切比雪夫(Chebyshev)不等式的重要性在于:在只知道随机变量的期望,或期望和方差都知道的情况下,可以导出概率的上界。当然,如果概率分布已知,就可以直接计算概率的值而无需计算概率的上界。所以切比雪夫不等式的用途更多地是证明理论结果(如下面这个定理),更重要的是它可以被用来证明大数定理。

定理:var(X)=0,则PX=EX]}=1,也就是说,一个随机变量的方差为0的充要条件是这个随机变量的概率为1地等于常数。

证明:利用切比雪夫不等式,对任何n≥1

n→∞,得

结论得证。

弱大数定理:(辛钦大数定理)设X1X2,…,Xn,…是独立同分布的随机变量序列,它们具有公共的有限的数学期望EXi)=μ,其中i=1,2,…,作前n个变量的算术平均

则对于任意ε>0,有

证明:此处我们只证明大数定理的一种特殊情形,即在上述定理所列条件基础上,再假设var(Xi)为有限值,即原随机变量序列具有公共的有限的方差上界。不妨设这个公共上界为常数C,则var(Xi)≤C。这种特殊形式的大数定理也称为切比雪夫大数定理。此时

利用切比雪夫不等式,得

由上式看出,定理显然成立。

Y1Y2,…,Yn是一个随机变量序列,a是一个常数。若对任意ε>0,有

则称序列Y1Y2,…,Yn依概率收敛于a,记为

依概率收敛的序列有以下性质:设,又设函数gxy)在点(ab)处连续,则有

如此一来,上述弱大数定理又可表述如下。

设随机变量X1X2,…,Xn独立同分布,并且具有公共的数学期望EXi)=μ,其中i=1,2,…,则序列

依概率收敛于μ

弱大数定理最早是由雅各布·伯努利证明的,而且他所证明其实是大数定理的一种特殊情况,其中Xi只取0或1,即X为伯努利随机变量。他对该定理的陈述和证明收录在1713年出版的巨著《猜度术》一书中。而切比雪夫是在伯努利逝世一百多年后才出生的,换言之在伯努利生活的时代,切比雪夫不等式还不为人所知。伯努利必须借助十分巧妙的方法来证明其结果。上述弱大数定理是独立同分布序列的大数定理的最一般形式,它是由苏联数学家辛钦(Khinchin)所证明的。

与弱大数定理相对应的,还有强大数定理。强大数定理是概率论中最著名的结果。它表明,独立同分布的随机变量序列,前n个观察值的平均值以概率为1地收敛到分布的平均值。

定理:(强大数定理)设X1X2,…为独立同分布的随机变量序列,其公共期望值EXi)=μ为有限,其中i=1,2,…,则有下式成立

法国数学家波莱尔(Borel)最早在伯努利随机变量的特殊情况下给出了强大数定理的证明。而上述这个一般情况下的强大数定理则是由苏联数学家柯尔莫哥洛夫(Kolmogorov)证明的。限于篇幅,本书不再给出详细证明,有兴趣的读者可以参阅相关资料以了解更多。但我们有必要分析一下强、弱大数定理的区别所在。弱大数定理只能保证对于充分大的n,随机变量趋近于μ。但它不能保证对一切nn,(X1+…+Xn)/n也一定在μ的附近。这样,|(X1+…+Xn)/n-μ|就可以无限多次偏离0(尽管出现较大偏离的频率不会很高)。而强大数定理则恰恰能保证这种情况不会出现,强大数定理能够以概率为1地保证,对于任意正数ε>0,有

只可能出现有限次。

大数定理保证了一些随机事件的均值具有长期稳定性。在重复试验中,随着试验次数增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。比如,向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当上抛硬币的次数足够多后,达到上万次甚至几十万、几百万次以后,会发现硬币每一面向上的次数约占总次数的二分之一。偶然中也必定包含着必然。

1.4.2 中央极限定理

中央极限定理是概率论中最著名的结果之一。中央极限定理说明,大量相互独立的随机变量之和的分布以正态分布为极限。准确来说,中央极限定理是概率论中的一组定理,这组定理是数理统计学和误差分析的理论基础,它同时为现实世界中许多实际的总体分布情况提供了理论解释。

下面就给出独立同分布下的中央极限定理,又被称为林德贝格-列维中央极限定理,它是由芬兰数学家林德贝格(Lindeberg)和法国数学家列维(Lévy)分别独立获得。

定理:设X1X2,…为独立同分布的随机变量序列,其公共分布的期望为μ,方差为σ2,假如方差σ2有限且不为0,则前n个变量之和的标准化随机变量

的分布当n→∞时收敛于标准正态分布Φa)。即对任何a∈(-∞,∞),有

其中

上述定理的证明关键在于下面这样一条引理,由于其中牵涉太多数学上的细节,此处我们不打算给出该引理的详细证明,而仅仅将其作为一个结论来帮助证明中央极限定理。

引理:设Z1Z2,…为一随机变量序列,其分布函数为,相应的矩母函数为n≥1。又设Z的分布为FZ,矩母函数为MZ,若对一切t成立,则FZt)所有的连续点成立。

Z为标准正态分布,则,利用上述引理可知,若

则有(其中,Φ是标准正态分布的分布函数)

下面我们就基于上述结论给出中央极限定理的证明。

证明:首先,假定μ=0,σ2=1,我们只在Xi的矩母函数Mt)存在且有限的假定下证明定理。现在,的矩母函数为

由此可知,的矩母函数为

Lt)=lnMt)。对于Lt),有

要证明定理,由上述引理,则必须证明

或等价地

下面的一系列等式说明这个极限式成立(使用了洛必达法则)。

如此便在μ=0,σ2=1的情况下,证明了定理。对于一般情况,只需考虑标准化随机变量序列,,由于,将已经证得的结果应用于序列,便可得到一般情况下的结论。

需要说明的是,虽然上述中央极限定理只说对每一个常数a,有

事实上,这个收敛是对a一致的。当n→∞时,fna)→fa)对a一致,是说对任何ε>0,存在N,使得当nN时,不等式|fna)-fa)|<ε对所有的a都成立。

下面给出相互独立随机变量序列的中心极限定理。注意与前面的情况不一样的地方在于,这里不再强调“同分布”,即不要求有共同的期望和一致的方差。

定理:设X1X2,…为相互独立的随机变量序列,相应的期望和方差分别为μi=EXi],。若Xi为一致有界的,即存在M,使得P{|Xi|<M}=1对一切i成立;且,则对一切a,有

中央极限定理的证明牵涉内容较多,也非常复杂。对于实际应用而言记住它的结论可能要比深挖它的数学细节更为重要。

中央极限定理告诉我们,若有独立同分布的随机变量序列X1X2,…Xn,它们的公共期望和方差分别为μ=EXi],σ2=DXi)。不管其分布如何,只要n足够大,则随机变量之和服从正态分布

另外一个事实是如果,并且Yi相互独立,其中i=1,2,…,m,则它们的线性组合C1Y1+C2Y2+…+CmYm仍服从正态分布,其中C1C2,…,Cm是不全为0的常数。于是,由数学期望和方差的性质可知

如果令上式中的C2,…,Cm为0,令C1=1/n,则进一步可知随机变量的均值也服从正态分布

于是便可以得到下面这个结论:设X1X2,…,Xn是来自正态总体Nμσ2)的一个样本,是样本的均值,则有

第一个版本的中央极限定理最早是由法国数学家棣莫弗于1733年左右给出的。他在论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史所遗忘,所幸的是,法国数学家拉普拉斯在1812年发表的著作中拯救了这个默默无名的理论。拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。而且拉普拉斯对于更一般化形式的中央极限定理所给出的证明并不严格。事实上,沿用他的方法也不可能严格化。后来直到19世纪末中央极限定理的重要性才被世人所知。1901年,切比雪夫的学生俄国数学家李雅普诺夫(Lyapunov)用更普通的随机变量定义中央极限定理并在数学上进行了严格的证明。

高斯分布在概率论中之所以如此重要,很大程度上得益于中央极限定理所给出的结论。由高斯分布和中央极限定理出发,还可以进一步推广出许多有用的结论,这些结论在统计学中具有非常重要的意义。