大话机器学习:原理|算法|建模|代码30讲
上QQ阅读APP看书,第一时间看更新

2.4 泊松分布

泊松分布(Poisson Distribution)是法国数学家西莫恩·德尼·泊松(Simeon-Denis Poisson)建立的。

在现实生活中,经常需要去解决类似以下的问题:

· 预测或者估计一段时间内发生交通事故的次数;

· 一批产品中出现瑕疵产品的数量;

· 商店中某件不太被频繁购买物品的备货数量。

以上这些问题一般具有以下几个特征或者前提条件:

(1)X是在一个区间(时间、空间、长度、面积、部件、整机等)内发生特定事件的次数,其取值为0,1,2,…,n

(2)一个事件的发生不影响其他事件的发生,没有相互间的依赖,即事件独立发生

(3)事件的发生概率是相同的,不能有些区间内发生的概率高一些而另一些区间的概率却低一些。

(4)两个事件不能在同一个时刻发生

(5)一个区间内一个事件发生的概率与区间的大小成比例

满足以上条件,则X就是泊松随机变量,其分布就是泊松分布。泊松分布就是描述某段时间内,事件的发生概率。

泊松分布的概率为:

其中,λ>0是常数,是指定区间事件发生的频率(不是概率),x是事件数量。

假设某公司有一个不稳定的Web系统,如图2-7所示,每周平均的故障次数是2次,那么在下周不发生故障的概率是多少?

图2-7

每周平均的故障次数是2次,我们可以把“一周”看作单位时间,系统的故障率是λ=2,单位时间内发生故障的次数X符合泊松分布X~Poisson(λ)。在下周不发生故障的概率相当于发生了0次故障的概率为:

现在如果要判断接下去的两周不发生故障的概率是多少呢?这时有以下两种计算方法。

第一种方法是把一周没有故障的概率相乘:

PX=0)×PX=0)=e-2×e-2=e-4

另外一种方法是根据泊松分布的概率公式进行计算,此时因为事件变成了两周,所以λ=2×2=4:

以上两种计算方法的结果是一致的。

根据上面的例子可以看到,泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量n一般必须很大。泊松分布还有一个很好的性质,那就是区间的线性倍数对应的事件发生的概率也是倍数。

也正因为其概率和区间的线性关系,而且一般事件发生的频率不高,所以把时间减小到一定区间后,就变成了这样一个对等的问题:发生交通事故的频度是λ,而且这个值比较小(如万分之一),请问事故会不会发生?发生几次?也就是将该问题变成是一个二项分布问题。

我们用一个简单的数学推导来看一看这个近似等价的关系(只是看着有点复杂,其实还是很简单的推导)。这里假设λn×p,当n趋向无穷大,p就趋向于0,那么代入二项分布函数:

e是自然常数,其定义是:

代入上面的公式:

通过e和二项分布,再做一些假设条件之后,两者是近乎等价的!

e实际的含义在这里再强调一下。譬如存1元钱到银行时,银行需要付利息,假设总体利率是100%,但是这个100%不是到期后算一次,而是要求每天算一次,并且要求能利滚利。假设现在这笔钱约定存n天,那么每天的利息就是1/n,每天的本息加起来就是,经过n天后的最终本息就是。再假设n是无穷大,那么最终的极限值算出来就是自然常数e。为什么称为自然常数呢,因为类似这样的情况在自然界里面是一个经常发生的现象,故把e称为自然常数,而我们经常使用的2、8、10、12、16等数字更多的是为了解决问题以及计算方便而设计出来的,不是“自然”产生的。