Python机器学习算法与应用
上QQ阅读APP看书,第一时间看更新

2.2.2 相关分析

1.相关分析的主要内容

相关分析是指对客观现象的相互依存关系进行分析、研究,这种分析方法叫相关分析法。相关分析的目的在于研究相互关系的密切程度及其变化规律,以便做出判断,进行必要的预测和控制。相关分析的主要内容包括以下几点。

(1)确定现象之间有无相关关系

这是相关与回归分析的起点,只有存在相互依存关系,才有必要进行进一步的分析。

(2)确定相关关系的密切程度和方向

确定相关关系密切程度主要是通过绘制相关图表和计算相关系数来完成。只有达到一定密切程度的相关关系,才可配合具有一定意义的回归方程。

(3)确定相关关系的数学表达式

为确定现象之间变化上的一般关系,我们必须使用函数关系的数学公式作为相关关系的数学表达式。如果现象之间表现为直线相关,我们可采用配合直线方程的方法;如果现象之间表现为曲线相关,我们可采用配合曲线方程的方法。

(4)确定因变量估计值误差程度

使用配合直线或曲线的方法可以找到现象之间一般的变化关系,也就是自变量x变化时因变量y将会发生多大的变化。根据得出的直线方程或曲线方程,我们可以给出自变量的若干数值,求得因变量的若干个估计值。估计值与实际值是有出入的,确定因变量估计值误差大小的指标是估计标准误差。估计标准误差大,表明估计不太精确;估计标准误差小,表明估计较精确。

2.相关关系的测定

相关分析的主要方法有相关表、相关图和相关系数3种。现将这3种方法分述如下:

(1)相关表

在统计中,制作相关表或相关图,可以直观地判断现象之间大致存在的相关关系的方向、形式和密切程度。

在对现象总体中两种相关变量进行相关分析,以研究其相互依存关系时,如果将实际调查取得的一系列成对变量值的数据顺序地排列在一张表格上,那么这张表格就是相关表。相关表仍然是统计表的一种。根据数据是否分组,相关表可以分为简单相关表和分组相关表。

①简单相关表

简单相关表是数据未经分组的相关表,是把自变量按从小到大的顺序并配合因变量一一对应平行排列起来的统计表。

②分组相关表

在大量观察的情况下,原始数据很多,运用简单相关表表示就很难使用。这时要将原始数据进行分组,然后编制相关表,这种相关表称为分组相关表。分组相关表包括单变量分组相关表和双变量分组相关表两种。

· 单变量分组相关表。在原始数据很多时,对自变量数值进行分组,而对应的因变量不分组,只计算其平均值。根据数据具体情况,自变量可以是单项式,也可以是组距式。

· 双变量分组相关表。对两种有关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组相关表,因为表格形似棋盘,故又称棋盘式相关表。

(2)相关图

相关图又称散点图,以直角坐标系的横轴代表自变量x,纵轴代表因变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两个变量之间的相关关系。

相关图可以按未经分组的原始数据来编制,也可以按分组的数据(包括按单变量分组相关表和双变量分组相关表)来编制。通过相关图将会发现,当yx是函数关系时,所有的相关点都会分布在某一条线上。在相关关系的情况下,由于其他因素的影响,这些点并非处在一条线上,但所有相关点的分布会显示出某种趋势,因此相关图会很直观地显示现象之间相关的方向和密切程度。

(3)相关系数

相关表和相关图大体说明变量之间有无关系,但是它们的相关关系紧密程度却无法表达,因此,需运用数学解析方法构建一个恰当的数学模型来显示相关关系及其密切程度。对现象之间的相关关系的紧密程度做出确切的数量说明,就需要计算相关系数。

相关系数是在线性相关条件下说明两个现象之间关系密切程度的统计分析指标,记为γ

相关系数的计算公式为:

(2.40)

式中 n—数据项数;

ZQ-185-009_inline_0079x变量的算术平均数;

ZQ-185-009_inline_0080y变量的算术平均数;

ZQ-185-009_inline_0081x变量的标准差;

ZQ-185-009_inline_0082y变量的标准差;

ZQ-185-009_inline_0083xy变量的协方差。

在实际问题中,如果根据原始数据计算相关系数,可运用相关系数的简捷法计算,其计算公式为

(2.41)

(4)相关系数的分析

明晰相关系数的性质是进行相关系数分析的前提。现将相关系数的性质总结如下:

①相关系数的数值范围是在-1和+1之间,即-1≤γ≤1。

②计算结果,当γ>0时,表示xy为正相关;当γ<0时,xy为负相关。

③相关系数γ的绝对值越接近于1,表示相关关系越强;越接近于0,表示相关关系越弱。如果|γ|=1,就表示两个现象完全线性相关。如果|γ|=0,就表示两个现象完全不相关(不是线性相关)。

④相关系数γ的绝对值在0.3以下是无线性相关,0.3以上是有线性相关,0.3~0.5是低度线性相关,0.5~0.8是显著相关,0.8以上是高度相关。