2.3 概率统计
2.3.1 随机事件
自然界的各种现象,按其发生的结果,可以分成确定性(或偶然)现象和随机(或必然)现象两类。确定性现象是指在一定条件下必然发生的现象,只要保持条件不变,任何人重复实验或观察,该现象的结果总是确定的。随机现象是指在一定条件下,可能发生也可能不发生的现象。不论何种现象,对其所进行的观察、实验统称为试验(experiment)。
随机现象的试验特征是:
• 在一定条件下,其试验的可能结果不止一个;
• 一次试验中,可能出现某一结果,也可能出现另一个结果,事先无法预知;
• 就一次试验而言,其结果表现出偶然性,但在大量重复试验下,其试验结果呈现出某种规律性。
随机现象的这种隐蔽的内在规律性叫做统计规律性。要获得统计规律性,必须在相同的条件下,大量重复地做试验,这类试验称随机试验(random experiment),有时简称试验。随机试验具有三个特性:
• 试验可以在相同的条件下重复进行;
• 每次试验的可能结果不止一个,究竟会出现哪一个结果,试验前不能准确预言;
• 试验所有的可能结果在试验前是明确(已知)的,而每次试验必有其中的一个结果出现,而且仅有一个结果出现。
试验的每一个可能的结果称为一个基本事件(basic event)。全体结果所构成的集合称为随机试验的样本空间(sample space),记为Ω。样本空间中的元素称为样本点(sample points)。
样本空间的子集称为随机事件(random event),简称事件。
事件A的对立事件或补集是指Ω中不在A中元素组成的集合,记为,=Ω−A。
事件A和B的并(或和)记为A∪ B,是指事件A和事件B中至少有一个发生的集合。
事件A和B的积(或交)记为A∩B或AB,是指事件A和事件B同时发生的集合。
事件A和B的差记为A-B,是指事件A发生而事件B不发生的集合。
由差事件和对立事件的定义可以得到下列结论:A−B=。
事件的运算满足以下规则:
交换律:AB=BA, AB=BA
结合律:(A∪B)∪C=A∪ (B∪ C)
(AB)C=A(BC)
分配律:(A∪B)∩C=AC∪BC
(A∩B)∪C=(A∪C)∩(B∪ C)
德·摩根(De Morgan)律(对偶原则):
2.3.2 概率的定义
随机事件A发生的可能性大小的度量称为A发生的概率,记作P(A)。
概率P是定义在样本空间Ω上的实数函数,满足如下性质:
非负性:对于任一事件A,0≤P(A)≤1;
规范性:P(Ω)=1;
可列加性:对于样本空间中的任意不相交的事件A1, A2, …, An:
不可能事件的概率为0,即P(Φ)=0。
如果事件之间存在相交,计算其概率就需要用到加法公式:
P(A∪B)=P(A)+P(B)−P(A∪B)
特殊地:P(A)+P()=1
还可以导出:P(A−B)=P(A)−P(A∩B)
2.3.3 条件概率和贝叶斯公式
条件概率(两个事件先后发生):已知事件A发生条件下,事件B发生的概率为:
乘法公式(两个事件同时发生):P(A∩B)=P(A)P(B|A)
全概率公式(样本空间某种划分下的概率):如果事件B1, B2, …, Bn构成样本空间Ω的一种划分,且P(Bi)>0, i=1, 2, …, n,则对于样本空间Ω中的任一事件A,有:
样本空间划分是把所有可能情况都列全,而且不同情况之间没有交叉重叠,即:
贝叶斯公式(事件发生后分析各种诱因):事件B1, B2, …, Bn是样本空间Ω的一种划分,对于Ω中的任一事件A,如果满足P(A)>0,有:
其中,k=1, 2, …, n。
当事件A已经发生后,贝叶斯公式可以用来寻找分析导致事件发生的原因。把样本空间Ω看作事件A发生的各种原因组成的空间,B1, B2, …, Bn表示各种原因,概率P(A|Bk)表示事件Bk导致事件A发生的概率,P(Bk)是原因Bk发生的概率,一般是根据以往的积累数据或经验得出的,是先于试验就得到的概率,所以称先验概率。相应地,通过试验得到的概率称后验概率。因此,贝叶斯公式是由“结果”求“原因”的。
2.3.4 常用概率模型
1. 古典概型
若试验具有以下两个特征:
1)有限性。试验的样本空间Ω是有限集,即
Ω={ω1, ω2, …, ωn}
2)等可能性。每个样本点(即基本事件)发生的可能性都相等,即
则称此试验为古典概型试验,简称古典概型(classical probability model)。
设古典概型试验E的样本空间Ω有n个样本点,若事件A包含其中的m个样本点,m≤n,则事件A的概率为:
古典概型样本点计算中经常用到排列和组合公式。
不重复排列公式:从n个元素中任取m个元素,m≤n,按照一定的顺序排成一列,其排列数为:
可重复排列公式:从n个不同元素中有放回地抽取m个元素按照一定的顺序排成一列,m≤n,其排列数为:
nm
圆排列:将n个元素环形排列,仅区分元素之间的相对位置,这种排列法称为圆排列,其排列数为:(n−1)!。
组合公式:从n个不同元素中取出m个元素,不计顺序组成一组,其组合数为:
加法原理:如果完成一件工作有m个不同的方法,其中任何一个方法都可以一次完成这件工作。假设第i个方法有ni(i=1, 2, …, m)个方案,则完成该件工作的全部方案有n1+n2+…+nm个。
乘法原理:如果一件工作先后需m个步骤才能完成,其中第i个步骤有ni(i=1, 2, …, m)个方案,则完成该项工作的方案有n1n2…nm个。
2. 几何概型
古典概型的试验结果是有限多个,几何概型的试验结果为无穷多个。几何概型是指具有下列两个特征的随机试验:
1)有限区间,无限样本点:试验的所有可能结果为无穷多个样本点,但其样本空间Ω表现为直线、平面或三维空间中具有几何度量的有限区域;
2)等可能性:试验中每个基本事件出现的可能性相同,且任意两个基本事件不可能同时发生。
在几何概型中,设样本空间为Ω,事件A⊂Ω,则事件A发生的概率为:
3. 伯努利概型
如果一个试验只有成功(A)和失败()两种可能的结果,每次试验成功的概率是一个常数P(A)=p。重复n次试验构成一个过程,这个过程称为伯努利过程,每次试验称为伯努利试验,或伯努利概型。
在n次伯努利试验中,事件A出现k次的概率为:
2.3.5 随机变量与概率分布
为了将随机事件进行量化,需要引入随机变量。
设E是随机试验,其样本空间为Ω={ω},如果对于每一个样本点ω∈Ω,都有唯一确定的实数ξ(ω)与之对应,则称实值函数ξ(ω)为一个随机变量,常用大写字母X、Y、Z表示。由此,随机事件不论与数量是否直接有关,都可以用数量化的方式表达。
如果随机变量X只可能取有限个或至多可列个值,则称X为离散型随机变量。取值为0或1的特殊随机变量称为伯努利随机变量。
对于随机变量X,若存在一个定义在(−∞, ∞)内的非负实值函数f(x),使得对于任意实数x,总有
则称X为连续型随机变量。
设离散型随机变量X所有可能的取值为:{x1, x2, …, xn, …},每个值都有一个相应的概率P(X=xk)=pk(k=1, 2, …),称为随机变量X的分布列,或称概率函数。
离散型随机变量的分布列满足:
1)
2)pk≥0, k=1, 2, …。
X的分布函数为:
连续型随机变量定义中的f(x)称为概率密度函数,简称密度函数。连续随机变量在其任一点取值的概率均为0,对这个函数的积分可以得到X在a和b之间的概率值:
或
F(x)称为X的分布函数。
因为表示的是概率值,所以,概率密度函数需要满足:
① f(x)≥0;
②
注意:离散随机变量有概率函数,连续随机变量只有概率密度函数,概率是由面积表示的,即是由概率密度函数积分得到的。进一步,连续随机变量可以用曲线表示,但是,曲线上的点的高度表示的不是概率值!
如果事件的发生涉及多个随机变量,需要引入联合概率分布。
离散型随机变量X和Y的联合概率分布为:P(X=xi, Y=yj)=pij, i, j=1, 2, …:
① pij≥0, i, j=1, 2, …;
②
连续型随机变量X和Y的联合密度函数f(x, y):
① 对于所有(x, y), f(x, y)≥0;
②
③ 对于xy平面上的任意区域S,P[(X, Y)∈S]=∫∫Sf(x, y)dxdy。
2.3.6 随机变量的数字特征
1. 均值(期望值)
如果X是离散的,X的均值或期望值是:
如果X是连续的,X的均值或期望值是:
2. 方差
随机变量X的均值或期望值描述了概率分布的中心位于何处,方差用来描述随机变量偏离中心的程度。之所以不用标准差而用平方差,是为了避免出现正负误差相互抵消的情况。
如果X是离散的,那么其方差为:
如果X是连续的,那么其方差为:
x−µ称为观测值对均值的离差。
随机变量X求方差的简便计算公式:
σ2=E(x2)-μ2
3. 协方差
对于多个随机变量,用协方差来分析它们之间的相互影响程度。比如有两个随机变量X、Y,其组合(X, Y)就组成了一个二维随机变量。这个二维随机变量的方差就是协方差。
如果X和Y是离散的,那么其协方差为:
如果X和Y是连续的,那么其协方差为:
均值分别为µX和µY的两个随机变量X、Y的协方差可以用下列公式计算:
Cov(X, Y)=E(XY)−µXµY
两个随机变量X、Y之间的相互影响关系有如图2-4所示的正相关、负相关和不相关三种关系。
图2-4 协方差表示的变量相关关系
当X越大,Y也越大,X越小,Y也越小时,称为正相关,此时:Cov(X, Y)>0。
当X越大,Y反而越小,X越小,Y反而越大时,称为负相关,此时:Cov(X, Y)<0。
当X的变化不会引起Y任何变化时,称为不相关,此时:Cov(X, Y)=0。
如果还需要度量两个随机变量X、Y之间的关系,可以用相关系数:
2.3.7 典型的概率分布
1. 二项分布
n次伯努利试验的成功次数X称为二项随机变量。这个离散随机变量的概率分布称为二项分布,即:
如果一个伯努利试验成功的概率是p,把n次独立试验中的成功次数作为二项随机变量X,其概率分布为:
二项分布的概率计算方法如下:
二项分布的均值和方差为:
µ=np, σ2=npq
2. 多项式分布
如果每次试验可能的结果多于两种,二项试验就变成多项式试验了。
多项式分布 如果给定的试验有k种可能结果E1, E2, …, Ek,对应的概率分别为p1, p2, …, pk,随机变量X1, X2, …, Xk分别表示在n次独立试验中结果E1, E2, …, Ek出现的次数,则X1, X2, …, Xk的概率分布为:
其中,
3. 超几何分布
二项分布要求试验是独立的,即抽样后取出的样本在下次试验前必须放回。超几何分布不要求试验相互独立,即是基于不放回抽样的。
超几何分布 总数为N的对象中,有k件被标记为成功,N-k件被标记为失败,随机选取n个对象作为样品,超几何随机变量X表示选中标记为成功对象的数目,它的概率分布为:
超几何分布h(x;N, n, k)的均值和方差为:
4. 负二项分布和几何分布
对于二项试验,如果不是按试验次数n去求有x次成功的概率,而是按成功次数k去求试验次数x的概率,这类试验称为负二项试验。
做X次试验成功了k次,X被称为负二项随机变量,它的概率分布称为负二项分布。
负二项分布 如果重复的独立试验成功的概率为p,以X表示出现k次此成功结果所用的试验次数,此随机变量的概率分布为:
几何分布在伯努利试验中,试验进行到第X次才第一次成功,随机变量X的概率分布为:
g(x;p)=p(1−p)x−1, x=1, 2, 3, …
由此可见,几何分布就是k=1时的负二项分布。
服从几何分布的随机变量的均值和方差为:
5. 泊松分布
泊松分布适合于描述单位度量区间内随机事件发生的次数,而且是小概率事件。单位度量区间包括单位时间区间、单位长度、单位面积、单位体积等。
泊松分布适用的事件有以下特点:
① 这个事件是一个小概率事件;
② 事件的每次发生是独立的,不会相互影响;
③ 事件的概率是稳定的。
泊松分布 X表示在给定的时间间隔或指定区域t内结果的发生数量,则泊松随机变量X的概率分布为:
其中,λ表示在单位度量区间内得到结果的平均数量,e为欧拉常数。
当二项分布的n很大而p很小时,且λ=np大小适中时,泊松分布可作为二项分布的近似公式。
6. 指数分布
指数分布是描述泊松过程中事件之间的时间概率分布。指数分布X的密度函数为:
其中λ>0是分布的一个参数,常被称为率参数(rate parameter),即每单位时间内发生某事件的次数。
其分布函数为:
7. 均匀分布
在任何情况下概率都是一样的分布称为均匀分布。均匀分布是用一个“平坦的”密度函数描述的,因此在闭区间[A,B]上的概率是均匀的。
均匀分布 在区间[A,B]上的连续均匀分布随机变量X的密度函数为:
均匀分布的均值和方差是:
8. 高斯分布(正态分布)
如果某个现象的发生是由大量偶然因素相互作用的结果,通常使用正态分布来描述。“正态normal”的含义是指不是因为某种特定原因,而是多种偶然因素造成的事件发生。或者说,正态分布的原因“绝大部分是普通,极少数是特殊”。
正态分布的曲线是非常漂亮的对称钟形曲线,其形状由两个参数完全决定:均值μ和标准差σ。经验表明,一些物理量和科学测量的误差均符合正态分布。
正态分布 均值为μ,方差为σ2的正态随机变量X的密度为:
均值μ=0,标准差σ=1的正态随机变量的分布称为标准正态分布n(x;0,1)。
正态分布的分布函数为:
其概率值为(正态曲线下的面积):
9. 伽玛分布
正态分布解决了很多工程和科学上的问题,但有些情况下还需要其他类型的分布。指数分布和伽玛分布在排队论和可靠性问题中发挥了重要作用。
到达服务设施的时间间隔、部件和系统的失效时间等,通常用指数分布来建立模型。指数分布是伽玛分布的特例。
伽玛分布得名于著名的伽玛函数:
伽玛函数的性质:
① Γ(n)=(n−1)(n−2)…(1)Γ(1),其中n为正整数;
② Γ(n)=(n−1)其中n为正整数;
③ Γ(1)=1;
④
伽玛分布 连续随机变量X服从参数为α和β的伽玛分布,若它的密度函数为:
其中,α>0, β>0。
伽玛分布的均值和方差为:μ=αβ, σ2=αβ2。
10. 卡方分布
卡方分布主要用来评估实际结果与期望结果之间的差异是否异常,包括检验拟合优度,即检验一组给定数据与指定分布的吻合程度,以及检验两个变量的独立性。
若n个相互独立的随机变量ξ1, ξ2, …, ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布规律称为卡方分布。
在伽玛分布中,令, β=2, v为正整数,就可得到卡方分布。因此,卡方分布是伽马分布的另一个特例,该分布仅有一个参数v,称为自由度。
卡方分布的密度函数为:
2.3.8 统计与概率
统计与概率如同“一对亲兄弟”。老大“概率”天资聪慧,喜欢使用自己的天赋与知识对未来事件进行预测;老二“统计”踏实肯干,只顾埋头收集数据,从数据中发现隐藏的规律。因此,概率使用的是推理方法,而统计使用的则是归纳方法。
如图2-5所示,统计推断运用概率论中的基本概念,基于样本数据进行统计推断,得出涵盖总体的结论;概率论是根据总体的已知特征,对样本数据做出判别。
图2-5 概率与统计的关系
2.3.9 样本与总体
数据是统计学的基础。在统计学中,数据分成样本和总体两类。总体是指一个试验中所有可能的观察值,样本是从总体中抽取的一部分观测值。
抽取样本的过程称为抽样。抽样的准确与否,直接决定了分析结果的准确性。如果是小概率事件的样本十分稀少,抽样更加困难。
从总体X中随机抽取一部分个体X1, X2, …, Xn,称(X1, X2, …, Xn)为取自总体X的容量为n的样本。若X1, X2, …, Xn相互独立,且具有相同的概率分布(每个观察值被抽取的概率相等),那么称(X1, X2, …, Xn)为随机样本,n为样本容量。
2.3.10 统计量与抽样分布
统计量是随机样本的一个函数,如果样本容量是n,它就是n个随机变量的函数。
统计量是一个仅依赖于样本的随机变量,因此也有概率分布。一个统计量的概率分布称为抽样分布。一个统计量的抽样分布依赖于总体大小、样本容量和选择样本的方法。
与概率分布一样,抽样分布也有描述其分布情况的数字特征,唯一的区别是抽样分布的数字特征受随机样本的观测值影响,而概率分布的数字特征是恒定的总体参数。
常用的统计量包括:
1. 样本均值
2. 样本方差
图2-6是概率与统计在数字特征方面的区别与联系。
图2-6 总体与样本的关系
均值的抽样分布:当样本容量足够大时,样本均值的抽样分布近似于一个均值为μ,方差为的正态分布!这个结论就是中心极限定理。
2.3.11 参数估计
参数估计是运用样本数据对总体的某些数字特征,如数学期望、方差等参数做出估计。
点估计是利用样本数据计算得出关于总体数字特征的一个估计值。常用的点估计有矩估计和最大似然估计。最大似然估计适用范围较广泛。
如果已知总体分布,但其参数未知,想借助样本值来估计出未知参数,可使用最大似然估计。因此,最大似然估计适用于“模型已定,参数未知”的情况。
设X的概率密度函数f(x; θ1, …, θk)为已知,而θ1, …, θk为未知参数,X1, X2, …, Xn是从总体X中抽取的样本,x1, x2, …, xn是样本值,则称:
为样本的似然函数。使似然函数L达到最大值的, …, 称为θ1, …, θk的最大似然估计。
若L关于参数,可微,一般使用似然方程组或对数似然方程组来求最大似然估计, …, :
或
区间估计利用样本值确定总体参数所在的区间,并以一定的概率保证总体参数不会超出这个区间。
图2-7给出了参数估计形象的思考方法。
图2-7 参数估计思考方式