Python机器学习算法与应用
上QQ阅读APP看书,第一时间看更新

2.1.3 数据分布偏态与峰度的测定

偏态和峰度就是对这些分布特征的描述:偏度是对数据分布在偏移方向和程度所做的进一步描述;峰度是对数据分布的扁平程度所做的描述。偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。

1.动差法

动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。

一般地说,取变量的a值为中点,所有变量值与a之差的K次方的平均数称为变量X关于aK阶动差。用式子表示即为:

(2.31)

a=0时,即变量以原点为中心,上式称为K阶原点动差,用大写英文字母M表示。

一阶原点动差:

(2.32)

二阶原点动差:

(2.33)

三阶原点动差:

(2.34)

ZQ-185-009_inline_0068时,即变量以算术平均数为中心,上式称为K阶中心动差,用小写英文字母m表示。

一阶中心动差:

(2.35)

二阶中心动差:

(2.36)

三阶中心动差:

(2.37)

2.偏态及其测度

偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的(偏态的)。在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏,但要度量分布偏斜的程度,就需要计算偏态系数了。

采用动差法计算偏态系数是用变量的三阶中心动差m3ZQ-185-009_inline_0072进行对比,计算公式为:

(2.38)

当分布对称时,变量的三阶中心动差m3由于离差三次方后正负相互抵消而取得0值,所以a=0;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶中心动差m3。当m3为正值时,表示正偏离差值比负偏离差值要大,可以判断为正偏或右偏;反之,当m3为负值时,表示负偏离差值比正偏离差值要大,可以判断为负偏或左偏。|m3|越大,表示偏斜的程度就越大。由于三阶中心动差m3含有计量单位,为消除计量单位的影响,就用ZQ-185-009_inline_0074去除m3,使其转化为相对数。同样的, a的绝对值越大,表示偏斜的程度就越大。

3.峰度及其测度

峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下:

(2.39)

分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系,m2是方差,于是就以四阶中心动差m4来度量分布曲线的尖峭程度。m4是一个绝对数,含有计量单位,为消除计量单位的影响,将m4除以ZQ-185-009_inline_0076,就得到无量纲的相对数。衡量分布的集中程度或分布曲线的尖峭程度往往是以正态分布的峰度作为比较标准的。在正态分布条件下,m4/σ4=3,将各种不同分布的尖峭程度与正态分布比较。

当峰度a4>3时,表示分布的形状比正态分布更瘦更高,意味着分布比正态分布更集中在平均数周围,这样的分布称为尖峰分布,如图2.1(a);当a4=3时,分布为正态分布;当a4<3时,表示分布比正态分布更扁平,意味着分布比正态分布更分散,这样的分布称为扁平分布,如图2.1(b)所示。

图2.1 尖峰与平峰分布示意图