2.3 概率统计_深度学习原理与应用-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3　概率统计

2.3.1　随机事件

自然界的各种现象，按其发生的结果，可以分成确定性（或偶然）现象和随机（或必然）现象两类。确定性现象是指在一定条件下必然发生的现象，只要保持条件不变，任何人重复实验或观察，该现象的结果总是确定的。随机现象是指在一定条件下，可能发生也可能不发生的现象。不论何种现象，对其所进行的观察、实验统称为试验（experiment）。

随机现象的试验特征是：

• 在一定条件下，其试验的可能结果不止一个；

• 一次试验中，可能出现某一结果，也可能出现另一个结果，事先无法预知；

• 就一次试验而言，其结果表现出偶然性，但在大量重复试验下，其试验结果呈现出某种规律性。

随机现象的这种隐蔽的内在规律性叫做统计规律性。要获得统计规律性，必须在相同的条件下，大量重复地做试验，这类试验称随机试验（random experiment），有时简称试验。随机试验具有三个特性：

• 试验可以在相同的条件下重复进行；

• 每次试验的可能结果不止一个，究竟会出现哪一个结果，试验前不能准确预言；

• 试验所有的可能结果在试验前是明确（已知）的，而每次试验必有其中的一个结果出现，而且仅有一个结果出现。

试验的每一个可能的结果称为一个基本事件（basic event）。全体结果所构成的集合称为随机试验的样本空间（sample space），记为Ω。样本空间中的元素称为样本点（sample points）。

样本空间的子集称为随机事件（random event），简称事件。

事件A的对立事件或补集是指Ω中不在A中元素组成的集合，记为，=Ω−A。

事件A和B的并（或和）记为A∪ B，是指事件A和事件B中至少有一个发生的集合。

事件A和B的积（或交）记为A∩B或AB，是指事件A和事件B同时发生的集合。

事件A和B的差记为A-B，是指事件A发生而事件B不发生的集合。

由差事件和对立事件的定义可以得到下列结论：A−B=。

事件的运算满足以下规则：

交换律：AB=BA, AB=BA

结合律：(A∪B)∪C=A∪ (B∪ C)

(AB)C=A(BC)

分配律：(A∪B)∩C=AC∪BC

(A∩B)∪C=(A∪C)∩(B∪ C)

德·摩根（De Morgan）律（对偶原则）：

2.3.2　概率的定义

随机事件A发生的可能性大小的度量称为A发生的概率，记作P(A)。

概率P是定义在样本空间Ω上的实数函数，满足如下性质：

非负性：对于任一事件A，0≤P(A)≤1；

规范性：P(Ω)=1；

可列加性：对于样本空间中的任意不相交的事件A1, A2, …, An：

不可能事件的概率为0，即P(Φ)=0。

如果事件之间存在相交，计算其概率就需要用到加法公式：

P(A∪B)=P(A)+P(B)−P(A∪B)

特殊地：P(A)+P()=1

还可以导出：P(A−B)=P(A)−P(A∩B)

2.3.3　条件概率和贝叶斯公式

条件概率（两个事件先后发生）：已知事件A发生条件下，事件B发生的概率为：

乘法公式（两个事件同时发生）：P(A∩B)=P(A)P(B|A)

全概率公式（样本空间某种划分下的概率）：如果事件B1, B2, …, Bn构成样本空间Ω的一种划分，且P(Bi)>0, i=1, 2, …, n，则对于样本空间Ω中的任一事件A，有：

样本空间划分是把所有可能情况都列全，而且不同情况之间没有交叉重叠，即：

贝叶斯公式（事件发生后分析各种诱因）：事件B1, B2, …, Bn是样本空间Ω的一种划分，对于Ω中的任一事件A，如果满足P(A)>0，有：

其中，k=1, 2, …, n。

当事件A已经发生后，贝叶斯公式可以用来寻找分析导致事件发生的原因。把样本空间Ω看作事件A发生的各种原因组成的空间，B1, B2, …, Bn表示各种原因，概率P(A|Bk)表示事件Bk导致事件A发生的概率，P(Bk)是原因Bk发生的概率，一般是根据以往的积累数据或经验得出的，是先于试验就得到的概率，所以称先验概率。相应地，通过试验得到的概率称后验概率。因此，贝叶斯公式是由“结果”求“原因”的。

2.3.4　常用概率模型

1. 古典概型

若试验具有以下两个特征：

1）有限性。试验的样本空间Ω是有限集，即

Ω={ω1, ω2, …, ωn}

2）等可能性。每个样本点（即基本事件）发生的可能性都相等，即

则称此试验为古典概型试验，简称古典概型（classical probability model）。

设古典概型试验E的样本空间Ω有n个样本点，若事件A包含其中的m个样本点，m≤n，则事件A的概率为：

古典概型样本点计算中经常用到排列和组合公式。

不重复排列公式：从n个元素中任取m个元素，m≤n，按照一定的顺序排成一列，其排列数为：

可重复排列公式：从n个不同元素中有放回地抽取m个元素按照一定的顺序排成一列，m≤n，其排列数为：

圆排列：将n个元素环形排列，仅区分元素之间的相对位置，这种排列法称为圆排列，其排列数为：(n−1)!。

组合公式：从n个不同元素中取出m个元素，不计顺序组成一组，其组合数为：

加法原理：如果完成一件工作有m个不同的方法，其中任何一个方法都可以一次完成这件工作。假设第i个方法有ni(i=1, 2, …, m)个方案，则完成该件工作的全部方案有n1+n2+…+nm个。

乘法原理：如果一件工作先后需m个步骤才能完成，其中第i个步骤有ni(i=1, 2, …, m)个方案，则完成该项工作的方案有n1n2…nm个。

2. 几何概型

古典概型的试验结果是有限多个，几何概型的试验结果为无穷多个。几何概型是指具有下列两个特征的随机试验：

1）有限区间，无限样本点：试验的所有可能结果为无穷多个样本点，但其样本空间Ω表现为直线、平面或三维空间中具有几何度量的有限区域；

2）等可能性：试验中每个基本事件出现的可能性相同，且任意两个基本事件不可能同时发生。

在几何概型中，设样本空间为Ω，事件A⊂Ω，则事件A发生的概率为：

3. 伯努利概型

如果一个试验只有成功（A）和失败（）两种可能的结果，每次试验成功的概率是一个常数P(A)=p。重复n次试验构成一个过程，这个过程称为伯努利过程，每次试验称为伯努利试验，或伯努利概型。

在n次伯努利试验中，事件A出现k次的概率为：

2.3.5　随机变量与概率分布

为了将随机事件进行量化，需要引入随机变量。

设E是随机试验，其样本空间为Ω={ω}，如果对于每一个样本点ω∈Ω，都有唯一确定的实数ξ(ω)与之对应，则称实值函数ξ(ω)为一个随机变量，常用大写字母X、Y、Z表示。由此，随机事件不论与数量是否直接有关，都可以用数量化的方式表达。

如果随机变量X只可能取有限个或至多可列个值，则称X为离散型随机变量。取值为0或1的特殊随机变量称为伯努利随机变量。

对于随机变量X，若存在一个定义在（−∞, ∞）内的非负实值函数f(x)，使得对于任意实数x，总有

则称X为连续型随机变量。

设离散型随机变量X所有可能的取值为：{x1, x2, …, xn, …}，每个值都有一个相应的概率P(X=xk)=pk(k=1, 2, …)，称为随机变量X的分布列，或称概率函数。

离散型随机变量的分布列满足：

1）

2）pk≥0, k=1, 2, …。

X的分布函数为：

连续型随机变量定义中的f(x)称为概率密度函数，简称密度函数。连续随机变量在其任一点取值的概率均为0，对这个函数的积分可以得到X在a和b之间的概率值：

或

F(x)称为X的分布函数。

因为表示的是概率值，所以，概率密度函数需要满足：

① f(x)≥0；

②

注意：离散随机变量有概率函数，连续随机变量只有概率密度函数，概率是由面积表示的，即是由概率密度函数积分得到的。进一步，连续随机变量可以用曲线表示，但是，曲线上的点的高度表示的不是概率值！

如果事件的发生涉及多个随机变量，需要引入联合概率分布。

离散型随机变量X和Y的联合概率分布为：P(X=xi, Y=yj)=pij, i, j=1, 2, …：

① pij≥0, i, j=1, 2, …；

②

连续型随机变量X和Y的联合密度函数f(x, y)：

① 对于所有(x, y), f(x, y)≥0；

②

③ 对于xy平面上的任意区域S，P[(X, Y)∈S]=∫∫Sf(x, y)dxdy。

2.3.6　随机变量的数字特征

1. 均值（期望值）

如果X是离散的，X的均值或期望值是：

如果X是连续的，X的均值或期望值是：

2. 方差

随机变量X的均值或期望值描述了概率分布的中心位于何处，方差用来描述随机变量偏离中心的程度。之所以不用标准差而用平方差，是为了避免出现正负误差相互抵消的情况。

如果X是离散的，那么其方差为：

如果X是连续的，那么其方差为：

x−µ称为观测值对均值的离差。

随机变量X求方差的简便计算公式：

σ2=E(x2)-μ2

3. 协方差

对于多个随机变量，用协方差来分析它们之间的相互影响程度。比如有两个随机变量X、Y，其组合（X, Y）就组成了一个二维随机变量。这个二维随机变量的方差就是协方差。

如果X和Y是离散的，那么其协方差为：

如果X和Y是连续的，那么其协方差为：

均值分别为µX和µY的两个随机变量X、Y的协方差可以用下列公式计算：

Cov(X, Y)=E(XY)−µXµY

两个随机变量X、Y之间的相互影响关系有如图2-4所示的正相关、负相关和不相关三种关系。

图2-4　协方差表示的变量相关关系

当X越大，Y也越大，X越小，Y也越小时，称为正相关，此时：Cov(X, Y)>0。

当X越大，Y反而越小，X越小，Y反而越大时，称为负相关，此时：Cov(X, Y)<0。

当X的变化不会引起Y任何变化时，称为不相关，此时：Cov(X, Y)=0。

如果还需要度量两个随机变量X、Y之间的关系，可以用相关系数：

2.3.7　典型的概率分布

1. 二项分布

n次伯努利试验的成功次数X称为二项随机变量。这个离散随机变量的概率分布称为二项分布，即：

如果一个伯努利试验成功的概率是p，把n次独立试验中的成功次数作为二项随机变量X，其概率分布为：

二项分布的概率计算方法如下：

二项分布的均值和方差为：

µ=np, σ2=npq

2. 多项式分布

如果每次试验可能的结果多于两种，二项试验就变成多项式试验了。

多项式分布　如果给定的试验有k种可能结果E1, E2, …, Ek，对应的概率分别为p1, p2, …, pk，随机变量X1, X2, …, Xk分别表示在n次独立试验中结果E1, E2, …, Ek出现的次数，则X1, X2, …, Xk的概率分布为：

其中，

3. 超几何分布

二项分布要求试验是独立的，即抽样后取出的样本在下次试验前必须放回。超几何分布不要求试验相互独立，即是基于不放回抽样的。

超几何分布　总数为N的对象中，有k件被标记为成功，N-k件被标记为失败，随机选取n个对象作为样品，超几何随机变量X表示选中标记为成功对象的数目，它的概率分布为：

超几何分布h(x;N, n, k)的均值和方差为：

4. 负二项分布和几何分布

对于二项试验，如果不是按试验次数n去求有x次成功的概率，而是按成功次数k去求试验次数x的概率，这类试验称为负二项试验。

做X次试验成功了k次，X被称为负二项随机变量，它的概率分布称为负二项分布。

负二项分布　如果重复的独立试验成功的概率为p，以X表示出现k次此成功结果所用的试验次数，此随机变量的概率分布为：

几何分布在伯努利试验中，试验进行到第X次才第一次成功，随机变量X的概率分布为：

g(x;p)=p(1−p)x−1, x=1, 2, 3, …

由此可见，几何分布就是k=1时的负二项分布。

服从几何分布的随机变量的均值和方差为：

5. 泊松分布

泊松分布适合于描述单位度量区间内随机事件发生的次数，而且是小概率事件。单位度量区间包括单位时间区间、单位长度、单位面积、单位体积等。

泊松分布适用的事件有以下特点：

① 这个事件是一个小概率事件；

② 事件的每次发生是独立的，不会相互影响；

③ 事件的概率是稳定的。

泊松分布　X表示在给定的时间间隔或指定区域t内结果的发生数量，则泊松随机变量X的概率分布为：

其中，λ表示在单位度量区间内得到结果的平均数量，e为欧拉常数。

当二项分布的n很大而p很小时，且λ=np大小适中时，泊松分布可作为二项分布的近似公式。

6. 指数分布

指数分布是描述泊松过程中事件之间的时间概率分布。指数分布X的密度函数为：

其中λ>0是分布的一个参数，常被称为率参数（rate parameter），即每单位时间内发生某事件的次数。

其分布函数为：

7. 均匀分布

在任何情况下概率都是一样的分布称为均匀分布。均匀分布是用一个“平坦的”密度函数描述的，因此在闭区间[A，B]上的概率是均匀的。

均匀分布　在区间[A，B]上的连续均匀分布随机变量X的密度函数为：

均匀分布的均值和方差是：

8. 高斯分布（正态分布）

如果某个现象的发生是由大量偶然因素相互作用的结果，通常使用正态分布来描述。“正态normal”的含义是指不是因为某种特定原因，而是多种偶然因素造成的事件发生。或者说，正态分布的原因“绝大部分是普通，极少数是特殊”。

正态分布的曲线是非常漂亮的对称钟形曲线，其形状由两个参数完全决定：均值μ和标准差σ。经验表明，一些物理量和科学测量的误差均符合正态分布。

正态分布　均值为μ，方差为σ2的正态随机变量X的密度为：

均值μ=0，标准差σ=1的正态随机变量的分布称为标准正态分布n(x;0,1)。

正态分布的分布函数为：

其概率值为（正态曲线下的面积）：

9. 伽玛分布

正态分布解决了很多工程和科学上的问题，但有些情况下还需要其他类型的分布。指数分布和伽玛分布在排队论和可靠性问题中发挥了重要作用。

到达服务设施的时间间隔、部件和系统的失效时间等，通常用指数分布来建立模型。指数分布是伽玛分布的特例。

伽玛分布得名于著名的伽玛函数：

伽玛函数的性质：

① Γ(n)=(n−1)(n−2)…(1)Γ(1)，其中n为正整数；

② Γ(n)=(n−1)其中n为正整数；

③ Γ(1)=1；

④

伽玛分布　连续随机变量X服从参数为α和β的伽玛分布，若它的密度函数为：

其中，α>0, β>0。

伽玛分布的均值和方差为：μ=αβ, σ2=αβ2。

10. 卡方分布

卡方分布主要用来评估实际结果与期望结果之间的差异是否异常，包括检验拟合优度，即检验一组给定数据与指定分布的吻合程度，以及检验两个变量的独立性。

若n个相互独立的随机变量ξ1, ξ2, …, ξn均服从标准正态分布，则这n个服从标准正态分布的随机变量的平方和构成一个新的随机变量，其分布规律称为卡方分布。

在伽玛分布中，令, β=2, v为正整数，就可得到卡方分布。因此，卡方分布是伽马分布的另一个特例，该分布仅有一个参数v，称为自由度。

卡方分布的密度函数为：

2.3.8　统计与概率

统计与概率如同“一对亲兄弟”。老大“概率”天资聪慧，喜欢使用自己的天赋与知识对未来事件进行预测；老二“统计”踏实肯干，只顾埋头收集数据，从数据中发现隐藏的规律。因此，概率使用的是推理方法，而统计使用的则是归纳方法。

如图2-5所示，统计推断运用概率论中的基本概念，基于样本数据进行统计推断，得出涵盖总体的结论；概率论是根据总体的已知特征，对样本数据做出判别。

图2-5　概率与统计的关系

2.3.9　样本与总体

数据是统计学的基础。在统计学中，数据分成样本和总体两类。总体是指一个试验中所有可能的观察值，样本是从总体中抽取的一部分观测值。

抽取样本的过程称为抽样。抽样的准确与否，直接决定了分析结果的准确性。如果是小概率事件的样本十分稀少，抽样更加困难。

从总体X中随机抽取一部分个体X1, X2, …, Xn，称（X1, X2, …, Xn）为取自总体X的容量为n的样本。若X1, X2, …, Xn相互独立，且具有相同的概率分布（每个观察值被抽取的概率相等），那么称（X1, X2, …, Xn）为随机样本，n为样本容量。

2.3.10　统计量与抽样分布

统计量是随机样本的一个函数，如果样本容量是n，它就是n个随机变量的函数。

统计量是一个仅依赖于样本的随机变量，因此也有概率分布。一个统计量的概率分布称为抽样分布。一个统计量的抽样分布依赖于总体大小、样本容量和选择样本的方法。

与概率分布一样，抽样分布也有描述其分布情况的数字特征，唯一的区别是抽样分布的数字特征受随机样本的观测值影响，而概率分布的数字特征是恒定的总体参数。

常用的统计量包括：

1. 样本均值

2. 样本方差

图2-6是概率与统计在数字特征方面的区别与联系。

图2-6　总体与样本的关系

均值的抽样分布：当样本容量足够大时，样本均值的抽样分布近似于一个均值为μ，方差为的正态分布！这个结论就是中心极限定理。

2.3.11　参数估计

参数估计是运用样本数据对总体的某些数字特征，如数学期望、方差等参数做出估计。

点估计是利用样本数据计算得出关于总体数字特征的一个估计值。常用的点估计有矩估计和最大似然估计。最大似然估计适用范围较广泛。

如果已知总体分布，但其参数未知，想借助样本值来估计出未知参数，可使用最大似然估计。因此，最大似然估计适用于“模型已定，参数未知”的情况。

设X的概率密度函数f(x; θ1, …, θk)为已知，而θ1, …, θk为未知参数，X1, X2, …, Xn是从总体X中抽取的样本，x1, x2, …, xn是样本值，则称：

为样本的似然函数。使似然函数L达到最大值的, …, 称为θ1, …, θk的最大似然估计。

若L关于参数，可微，一般使用似然方程组或对数似然方程组来求最大似然估计, …, ：

或

区间估计利用样本值确定总体参数所在的区间，并以一定的概率保证总体参数不会超出这个区间。

图2-7给出了参数估计形象的思考方法。

图2-7　参数估计思考方式

2.3 概率统计

2.3.1 随机事件

2.3.2 概率的定义

2.3.3 条件概率和贝叶斯公式

2.3.4 常用概率模型

2.3.5 随机变量与概率分布

2.3.6 随机变量的数字特征

2.3.7 典型的概率分布

2.3.8 统计与概率

2.3.9 样本与总体

2.3.10 统计量与抽样分布

2.3.11 参数估计