深度学习原理与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 概率统计

2.3.1 随机事件

自然界的各种现象,按其发生的结果,可以分成确定性(或偶然)现象和随机(或必然)现象两类。确定性现象是指在一定条件下必然发生的现象,只要保持条件不变,任何人重复实验或观察,该现象的结果总是确定的。随机现象是指在一定条件下,可能发生也可能不发生的现象。不论何种现象,对其所进行的观察、实验统称为试验(experiment)。

随机现象的试验特征是:

• 在一定条件下,其试验的可能结果不止一个;

• 一次试验中,可能出现某一结果,也可能出现另一个结果,事先无法预知;

• 就一次试验而言,其结果表现出偶然性,但在大量重复试验下,其试验结果呈现出某种规律性。

随机现象的这种隐蔽的内在规律性叫做统计规律性。要获得统计规律性,必须在相同的条件下,大量重复地做试验,这类试验称随机试验(random experiment),有时简称试验。随机试验具有三个特性:

• 试验可以在相同的条件下重复进行;

• 每次试验的可能结果不止一个,究竟会出现哪一个结果,试验前不能准确预言;

• 试验所有的可能结果在试验前是明确(已知)的,而每次试验必有其中的一个结果出现,而且仅有一个结果出现。

试验的每一个可能的结果称为一个基本事件(basic event)。全体结果所构成的集合称为随机试验的样本空间(sample space),记为。样本空间中的元素称为样本点(sample points)。

样本空间的子集称为随机事件(random event),简称事件。

事件A的对立事件或补集是指中不在A中元素组成的集合,记为=ΩA

事件AB的并(或和)记为AB,是指事件A和事件B中至少有一个发生的集合。

事件AB的积(或交)记为ABAB,是指事件A和事件B同时发生的集合。

事件AB的差记为A-B,是指事件A发生而事件B不发生的集合。

由差事件和对立事件的定义可以得到下列结论:AB=

事件的运算满足以下规则:

交换律:AB=BA, AB=BA

结合律:(AB)∪C=A∪ (BC)

(AB)C=A(BC)

分配律:(AB)∩C=ACBC

(AB)∪C=(AC)∩(BC)

德·摩根(De Morgan)律(对偶原则):

2.3.2 概率的定义

随机事件A发生的可能性大小的度量称为A发生的概率,记作P(A)。

概率P是定义在样本空间Ω上的实数函数,满足如下性质:

非负性:对于任一事件A,0≤P(A)≤1;

规范性:P(Ω)=1;

可列加性:对于样本空间中的任意不相交的事件A1, A2, …, An

不可能事件的概率为0,即P(Φ)=0。

如果事件之间存在相交,计算其概率就需要用到加法公式:

P(AB)=P(A)+P(B)−P(AB)

特殊地:P(A)+P()=1

还可以导出:P(AB)=P(A)−P(AB)

2.3.3 条件概率和贝叶斯公式

条件概率(两个事件先后发生):已知事件A发生条件下,事件B发生的概率为:

乘法公式(两个事件同时发生):P(AB)=P(A)P(B|A)

全概率公式(样本空间某种划分下的概率):如果事件B1, B2, …, Bn构成样本空间Ω的一种划分,且P(Bi)>0, i=1, 2, …, n,则对于样本空间Ω中的任一事件A,有:

样本空间划分是把所有可能情况都列全,而且不同情况之间没有交叉重叠,即:

贝叶斯公式(事件发生后分析各种诱因):事件B1, B2, …, Bn是样本空间Ω的一种划分,对于Ω中的任一事件A,如果满足P(A)>0,有:

其中,k=1, 2, …, n

当事件A已经发生后,贝叶斯公式可以用来寻找分析导致事件发生的原因。把样本空间Ω看作事件A发生的各种原因组成的空间,B1, B2, …, Bn表示各种原因,概率P(A|Bk)表示事件Bk导致事件A发生的概率,P(Bk)是原因Bk发生的概率,一般是根据以往的积累数据或经验得出的,是先于试验就得到的概率,所以称先验概率。相应地,通过试验得到的概率称后验概率。因此,贝叶斯公式是由“结果”求“原因”的。

2.3.4 常用概率模型

1. 古典概型

若试验具有以下两个特征:

1)有限性。试验的样本空间Ω是有限集,即

Ω={ω1, ω2, …, ωn}

2)等可能性。每个样本点(即基本事件)发生的可能性都相等,即

则称此试验为古典概型试验,简称古典概型(classical probability model)。

设古典概型试验E的样本空间Ωn个样本点,若事件A包含其中的m个样本点,mn,则事件A的概率为:

古典概型样本点计算中经常用到排列和组合公式。

不重复排列公式:从n个元素中任取m个元素,mn,按照一定的顺序排成一列,其排列数为:

可重复排列公式:从n个不同元素中有放回地抽取m个元素按照一定的顺序排成一列,mn,其排列数为:

nm

圆排列:将n个元素环形排列,仅区分元素之间的相对位置,这种排列法称为圆排列,其排列数为:(n−1)!。

组合公式:从n个不同元素中取出m个元素,不计顺序组成一组,其组合数为:

加法原理:如果完成一件工作有m个不同的方法,其中任何一个方法都可以一次完成这件工作。假设第i个方法有ni(i=1, 2, …, m)个方案,则完成该件工作的全部方案有n1+n2+…+nm个。

乘法原理:如果一件工作先后需m个步骤才能完成,其中第i个步骤有ni(i=1, 2, …, m)个方案,则完成该项工作的方案有n1n2nm个。

2. 几何概型

古典概型的试验结果是有限多个,几何概型的试验结果为无穷多个。几何概型是指具有下列两个特征的随机试验:

1)有限区间,无限样本点:试验的所有可能结果为无穷多个样本点,但其样本空间Ω表现为直线、平面或三维空间中具有几何度量的有限区域;

2)等可能性:试验中每个基本事件出现的可能性相同,且任意两个基本事件不可能同时发生。

在几何概型中,设样本空间为Ω,事件AΩ,则事件A发生的概率为:

3. 伯努利概型

如果一个试验只有成功(A)和失败()两种可能的结果,每次试验成功的概率是一个常数P(A)=p。重复n次试验构成一个过程,这个过程称为伯努利过程,每次试验称为伯努利试验,或伯努利概型。

n次伯努利试验中,事件A出现k次的概率为:

2.3.5 随机变量与概率分布

为了将随机事件进行量化,需要引入随机变量。

E是随机试验,其样本空间为Ω={ω},如果对于每一个样本点ωΩ,都有唯一确定的实数ξ(ω)与之对应,则称实值函数ξ(ω)为一个随机变量,常用大写字母XYZ表示。由此,随机事件不论与数量是否直接有关,都可以用数量化的方式表达。

如果随机变量X只可能取有限个或至多可列个值,则称X为离散型随机变量。取值为0或1的特殊随机变量称为伯努利随机变量。

对于随机变量X,若存在一个定义在(−∞, ∞)内的非负实值函数f(x),使得对于任意实数x,总有

则称X为连续型随机变量。

设离散型随机变量X所有可能的取值为:{x1, x2, …, xn, …},每个值都有一个相应的概率P(X=xk)=pk(k=1, 2, …),称为随机变量X的分布列,或称概率函数。

离散型随机变量的分布列满足:

1)

2)pk≥0, k=1, 2, …。

X的分布函数为:

连续型随机变量定义中的f(x)称为概率密度函数,简称密度函数。连续随机变量在其任一点取值的概率均为0,对这个函数的积分可以得到Xab之间的概率值:

F(x)称为X的分布函数。

因为表示的是概率值,所以,概率密度函数需要满足:

f(x)≥0;

注意:离散随机变量有概率函数,连续随机变量只有概率密度函数,概率是由面积表示的,即是由概率密度函数积分得到的。进一步,连续随机变量可以用曲线表示,但是,曲线上的点的高度表示的不是概率值!

如果事件的发生涉及多个随机变量,需要引入联合概率分布。

离散型随机变量XY的联合概率分布为:P(X=xi, Y=yj)=pij, i, j=1, 2, …:

pij≥0, i, j=1, 2, …;

连续型随机变量XY的联合密度函数f(x, y):

① 对于所有(x, y), f(x, y)≥0;

③ 对于xy平面上的任意区域SP[(X, Y)∈S]=∫∫Sf(x, y)dxdy

2.3.6 随机变量的数字特征

1. 均值(期望值)

如果X是离散的,X的均值或期望值是:

如果X是连续的,X的均值或期望值是:

2. 方差

随机变量X的均值或期望值描述了概率分布的中心位于何处,方差用来描述随机变量偏离中心的程度。之所以不用标准差而用平方差,是为了避免出现正负误差相互抵消的情况。

如果X是离散的,那么其方差为:

如果X是连续的,那么其方差为:

xµ称为观测值对均值的离差。

随机变量X求方差的简便计算公式:

σ2=E(x2)-μ2

3. 协方差

对于多个随机变量,用协方差来分析它们之间的相互影响程度。比如有两个随机变量XY,其组合(X, Y)就组成了一个二维随机变量。这个二维随机变量的方差就是协方差。

如果XY是离散的,那么其协方差为:

如果XY是连续的,那么其协方差为:

均值分别为µXµY的两个随机变量XY的协方差可以用下列公式计算:

Cov(X, Y)=E(XY)−µXµY

两个随机变量XY之间的相互影响关系有如图2-4所示的正相关、负相关和不相关三种关系。

图2-4 协方差表示的变量相关关系

X越大,Y也越大,X越小,Y也越小时,称为正相关,此时:Cov(X, Y)>0。

X越大,Y反而越小,X越小,Y反而越大时,称为负相关,此时:Cov(X, Y)<0。

X的变化不会引起Y任何变化时,称为不相关,此时:Cov(X, Y)=0。

如果还需要度量两个随机变量XY之间的关系,可以用相关系数:

2.3.7 典型的概率分布

1. 二项分布

n次伯努利试验的成功次数X称为二项随机变量。这个离散随机变量的概率分布称为二项分布,即:

如果一个伯努利试验成功的概率是p,把n次独立试验中的成功次数作为二项随机变量X,其概率分布为:

二项分布的概率计算方法如下:

二项分布的均值和方差为:

µ=np, σ2=npq

2. 多项式分布

如果每次试验可能的结果多于两种,二项试验就变成多项式试验了。

多项式分布 如果给定的试验有k种可能结果E1, E2, …, Ek,对应的概率分别为p1, p2, …, pk,随机变量X1, X2, …, Xk分别表示在n次独立试验中结果E1, E2, …, Ek出现的次数,则X1, X2, …, Xk的概率分布为:

其中,

3. 超几何分布

二项分布要求试验是独立的,即抽样后取出的样本在下次试验前必须放回。超几何分布不要求试验相互独立,即是基于不放回抽样的。

超几何分布 总数为N的对象中,有k件被标记为成功,N-k件被标记为失败,随机选取n个对象作为样品,超几何随机变量X表示选中标记为成功对象的数目,它的概率分布为:

超几何分布h(x;N, n, k)的均值和方差为:

4. 负二项分布和几何分布

对于二项试验,如果不是按试验次数n去求有x次成功的概率,而是按成功次数k去求试验次数x的概率,这类试验称为负二项试验。

X次试验成功了k次,X被称为负二项随机变量,它的概率分布称为负二项分布。

负二项分布 如果重复的独立试验成功的概率为p,以X表示出现k次此成功结果所用的试验次数,此随机变量的概率分布为:

几何分布在伯努利试验中,试验进行到第X次才第一次成功,随机变量X的概率分布为:

g(x;p)=p(1−p)x−1, x=1, 2, 3, …

由此可见,几何分布就是k=1时的负二项分布。

服从几何分布的随机变量的均值和方差为:

5. 泊松分布

泊松分布适合于描述单位度量区间内随机事件发生的次数,而且是小概率事件。单位度量区间包括单位时间区间、单位长度、单位面积、单位体积等。

泊松分布适用的事件有以下特点:

① 这个事件是一个小概率事件;

② 事件的每次发生是独立的,不会相互影响;

③ 事件的概率是稳定的。

泊松分布 X表示在给定的时间间隔或指定区域t内结果的发生数量,则泊松随机变量X的概率分布为:

其中,λ表示在单位度量区间内得到结果的平均数量,e为欧拉常数。

当二项分布的n很大而p很小时,且λ=np大小适中时,泊松分布可作为二项分布的近似公式。

6. 指数分布

指数分布是描述泊松过程中事件之间的时间概率分布。指数分布X的密度函数为:

其中λ>0是分布的一个参数,常被称为率参数(rate parameter),即每单位时间内发生某事件的次数。

其分布函数为:

7. 均匀分布

在任何情况下概率都是一样的分布称为均匀分布。均匀分布是用一个“平坦的”密度函数描述的,因此在闭区间[AB]上的概率是均匀的。

均匀分布 在区间[AB]上的连续均匀分布随机变量X的密度函数为:

均匀分布的均值和方差是:

8. 高斯分布(正态分布)

如果某个现象的发生是由大量偶然因素相互作用的结果,通常使用正态分布来描述。“正态normal”的含义是指不是因为某种特定原因,而是多种偶然因素造成的事件发生。或者说,正态分布的原因“绝大部分是普通,极少数是特殊”。

正态分布的曲线是非常漂亮的对称钟形曲线,其形状由两个参数完全决定:均值μ和标准差σ。经验表明,一些物理量和科学测量的误差均符合正态分布。

正态分布 均值为μ,方差为σ2的正态随机变量X的密度为:

均值μ=0,标准差σ=1的正态随机变量的分布称为标准正态分布n(x;0,1)。

正态分布的分布函数为:

其概率值为(正态曲线下的面积):

9. 伽玛分布

正态分布解决了很多工程和科学上的问题,但有些情况下还需要其他类型的分布。指数分布和伽玛分布在排队论和可靠性问题中发挥了重要作用。

到达服务设施的时间间隔、部件和系统的失效时间等,通常用指数分布来建立模型。指数分布是伽玛分布的特例。

伽玛分布得名于著名的伽玛函数:

伽玛函数的性质:

Γ(n)=(n−1)(n−2)…(1)Γ(1),其中n为正整数;

Γ(n)=(n−1)其中n为正整数;

Γ(1)=1;

伽玛分布 连续随机变量X服从参数为αβ的伽玛分布,若它的密度函数为:

其中,α>0, β>0。

伽玛分布的均值和方差为:μ=αβ, σ2=αβ2

10. 卡方分布

卡方分布主要用来评估实际结果与期望结果之间的差异是否异常,包括检验拟合优度,即检验一组给定数据与指定分布的吻合程度,以及检验两个变量的独立性。

n个相互独立的随机变量ξ1, ξ2, …, ξn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一个新的随机变量,其分布规律称为卡方分布。

在伽玛分布中,令, β=2, v为正整数,就可得到卡方分布。因此,卡方分布是伽马分布的另一个特例,该分布仅有一个参数v,称为自由度。

卡方分布的密度函数为:

2.3.8 统计与概率

统计与概率如同“一对亲兄弟”。老大“概率”天资聪慧,喜欢使用自己的天赋与知识对未来事件进行预测;老二“统计”踏实肯干,只顾埋头收集数据,从数据中发现隐藏的规律。因此,概率使用的是推理方法,而统计使用的则是归纳方法。

如图2-5所示,统计推断运用概率论中的基本概念,基于样本数据进行统计推断,得出涵盖总体的结论;概率论是根据总体的已知特征,对样本数据做出判别。

图2-5 概率与统计的关系

2.3.9 样本与总体

数据是统计学的基础。在统计学中,数据分成样本和总体两类。总体是指一个试验中所有可能的观察值,样本是从总体中抽取的一部分观测值。

抽取样本的过程称为抽样。抽样的准确与否,直接决定了分析结果的准确性。如果是小概率事件的样本十分稀少,抽样更加困难。

从总体X中随机抽取一部分个体X1, X2, …, Xn,称(X1, X2, …, Xn)为取自总体X的容量为n的样本。若X1, X2, …, Xn相互独立,且具有相同的概率分布(每个观察值被抽取的概率相等),那么称(X1, X2, …, Xn)为随机样本,n为样本容量。

2.3.10 统计量与抽样分布

统计量是随机样本的一个函数,如果样本容量是n,它就是n个随机变量的函数。

统计量是一个仅依赖于样本的随机变量,因此也有概率分布。一个统计量的概率分布称为抽样分布。一个统计量的抽样分布依赖于总体大小、样本容量和选择样本的方法。

与概率分布一样,抽样分布也有描述其分布情况的数字特征,唯一的区别是抽样分布的数字特征受随机样本的观测值影响,而概率分布的数字特征是恒定的总体参数。

常用的统计量包括:

1. 样本均值

2. 样本方差

图2-6是概率与统计在数字特征方面的区别与联系。

图2-6 总体与样本的关系

均值的抽样分布:当样本容量足够大时,样本均值的抽样分布近似于一个均值为μ,方差为的正态分布!这个结论就是中心极限定理。

2.3.11 参数估计

参数估计是运用样本数据对总体的某些数字特征,如数学期望、方差等参数做出估计。

点估计是利用样本数据计算得出关于总体数字特征的一个估计值。常用的点估计有矩估计和最大似然估计。最大似然估计适用范围较广泛。

如果已知总体分布,但其参数未知,想借助样本值来估计出未知参数,可使用最大似然估计。因此,最大似然估计适用于“模型已定,参数未知”的情况。

X的概率密度函数f(x; θ1, …, θk)为已知,而θ1, …, θk为未知参数,X1, X2, …, Xn是从总体X中抽取的样本,x1, x2, …, xn是样本值,则称:

为样本的似然函数。使似然函数L达到最大值的, …, 称为θ1, …, θk的最大似然估计。

L关于参数,可微,一般使用似然方程组或对数似然方程组来求最大似然估计, …,

区间估计利用样本值确定总体参数所在的区间,并以一定的概率保证总体参数不会超出这个区间。

图2-7给出了参数估计形象的思考方法。

图2-7 参数估计思考方式