SPSS统计分析与行业应用案例详解(第四版)
上QQ阅读APP看书,第一时间看更新

第2章 描述性统计分析实例

当进行数据分析时,如果研究者得到的数据量很小,那么就可以通过直接观察原始数据来获得所有的信息;如果得到的数据量很大,那么就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开描述的统计分析方法被称为描述性统计分析。常用的描述性统计分析有频数分析、描述性分析、探索分析、列联表分析。下面我们将一一介绍这几种方法在实例中的应用。

2.1 实例1——频数分析

2.1.1 频数分析的功能与意义

SPSS的频数分析(Frequencies)是描述性统计分析中比较常用的方法之一。通过频数分析,我们可以得到详细的频数表以及平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数和峰度系数等重要的描述统计量,还可以通过分析得到合适的统计图。所以进行频数分析不仅可以方便地对数据按组进行归类整理,还可以对数据的分布特征形成初步的认识。

2.1.2 相关数据来源

【例2.1】表2.1给出了山东省某学校50名高二学生的身高。试分析这50名学生的身高分布特征,计算平均值、最大值、最小值、标准差等统计量,并绘制频数表、直方图。

表2.1 山东省某学校50名高二学生的身高

2.1.3 SPSS分析过程

在用SPSS进行分析之前,我们要把数据录入到SPSS中。本例中有两个变量,分别是编号和身高。我们把编号定义为字符型变量,把身高定义为数值型变量,然后录入相关数据。录入完成后,数据如图2.1所示。

图2.1 案例2.1数据

先做一下数据保存,然后开始展开分析,步骤如下:

进入SPSS 24.0,打开相关数据文件,选择“分析”|“描述统计”|“频率”命令,弹出如图2.2所示的对话框。

图2.2 “频率”对话框

选择进行频数分析的变量。在“频率”对话框的左侧列表框中选择“身高”选项,单击中间的按钮使之进入“变量”列表框。

选择是否输出频数表格。选中“频率”对话框左下角的“显示频率表”复选框,要求输出频数表格。

选择输出相关描述统计量。单击“频率”对话框右上角的“统计”按钮,弹出如图2.3所示的对话框,在该对话框中可以设置相关描述统计量。我们在“百分位值”选项组中选中“四分位数”“分割点”复选框;在“集中趋势”选项组中选中“平均值”“中位数”“众数”“总和”复选框;在“离散”选项组中选中“标准差”“方差”“范围”“最小值”“最大值”“标准误差平均值”复选框;在“分布”选项组中选中“偏度”“峰度”复选框。设置完毕后,单击“继续”按钮返回“频率”对话框。

设置图表的输出。单击“频率”对话框中的“图表”按钮,弹出如图2.4所示的对话框,选择有关的图形输出。在此我们选择直方图,并且带正态曲线。

图2.3 “频率:统计”对话框

图2.4 “频率:图表”对话框

图2.5 “频率:格式”对话框

设置相关输出的格式。单击“频率”对话框中的“格式”按钮,弹出如图2.5所示的对话框。“排序方式”选项组用于设置频数表中各个数据值的排列顺序,其中“按值的升序排序”表示按数据值的大小升序排列;“按计数的升序排序”表示按数据值的频数升序排列。本例我们选中“按值的升序排序”单选按钮。“多个变量”选项组是针对按多个变量进行频数输出的情形,因为本例中我们进行频数输出依据的变量只有“身高”,所以这里选择默认设置。

设置完毕后,单击“确定”按钮,等待输出结果。

2.1.4 结果分析

1. 描述性统计表

从表2.2中可以读出以下信息:有效样本数为50个,没有缺失值。学生的平均身高为169.72,标准差为6.993,最大值为181,最小值为154。

2. 频数分布

表2.3给出了学生身高的频数分布。该表从左到右分别是有效的样本值、频率、频率占总数的百分比、有效数占总数的百分比、累计百分比。

3. 带正态曲线的直方图

图2.6是学生身高的直方图,从图中的正太曲线可以看出学生身高近似服从正态分布,而且集中趋势是集中在170。

表2.2 描述性统计表

表2.3 频数分布表

图2.6 带正态曲线的直方图

2.2 实例2——描述性分析

2.2.1 描述性分析的功能与意义

SPSS的描述性分析(Descriptives),其本质就是计算并输出各类相关的描述性统计指标。其特色是通过描述性分析,可以得到由原始数据转化成的标准化取值,并且可以将标准化值以变量的形式存入数据库,以便进一步分析。相关描述统计量主要有平均值、最大值、最小值、方差、标准差、极差、平均数标准误、偏度系数、峰度系数等。

2.2.2 相关数据来源

【例2.2】表2.4给出了山东省某高校50名大一入学新生的体重。试对这50名学生的体重进行描述性分析,从而了解这些学生体重的基本特征。

表2.4 山东省某高校50名大一入学新生的体重表

2.2.3 SPSS分析过程

本例中也有两个变量,分别是编号和体重。我们把编号定义为字符型变量,把体重定义为数值型变量,然后录入相关数据。录入完成后,数据如图2.7所示。

图2.7 案例2.2

先进行数据保存,然后开始展开分析,步骤如下:

进入SPSS 24.0,打开相关数据文件,选择“分析”|“描述统计”|“描述”命令,弹出如图2.8所示的对话框。

选择进行描述分析的变量。在“描述”对话框的左侧列表框中选择“体重”,单击按钮,使之进入“变量”列表框。

选择是否将标准化值另存为变量。选中“描述”对话框左下角的“将标准化值另存为变量”复选框,系统会将标准化值另存为变量。若不选中此项,则系统不会执行。

选择输出相关描述统计量。单击“描述”对话框右上角的“选项”按钮,弹出如图2.9所示的对话框,在该对话框中可以设置相关描述统计量。我们选择输出均值,即选中“平均值”复选框。在“离散”选项组中选中“标准差”“方差”“范围”“最小值”“最大值”“标准误差平均值”复选框;在“分布”选项组中选中“峰度”“偏度”复选框;在“显示顺序”选项组中选中“变量列表”单选按钮。设置完毕后,单击“继续”按钮返回“描述”对话框。

图2.8 “描述”对话框

图2.9 “描述:选项”对话框

单击“确定”按钮,等待输出结果。

2.2.4 结果分析

如表2.5所示,个案数为50个,范围为27.9,最小值为48.3,最大值为76.2,平均值为62.782,标准错误平均值为0.9506,标准差为6.7214,方差为45.177,偏度系数为0.062,峰度系数是-0.170。

表2.5 描述性分析结果

描述性统计分析有一个特点,即它可以将原始数据转换成标准化的取值并以变量的形式存入当前的数据库,如图2.10所示。

图2.10 新变量“Z体重”

2.3 实例3——探索分析

2.3.1 探索分析的功能与意义

SPSS的探索分析(Explore)是一种在对资料的性质、分布特点等完全不清楚的时候,对变量进行更加深入研究的描述性统计方法。探索分析除了具备一般的描述性统计指标外,还增加了数据文字与图形描述,从而有助于对数据进行更深入地研究分析。此外,相比数据描述性分析,探索分析还可以根据一定的方式分组进行统计。

2.3.2 相关数据来源

【例2.3】表2.6给出了天津、济南两座城市2007年各月份的平均气温。试据此对天津平均气温和济南平均气温进行探索性统计分析,研究天津平均气温和济南平均气温的基本特征。

表2.6 天津、济南两座城市2007年各月份的平均气温(单位:摄氏度)

2.3.3 SPSS分析过程

本例中有3个变量,分别是月份、城市和平均气温。我们把城市定义为字符型变量,把月份和平均气温定义为数值型变量,并对变量城市进行值标签操作,用“1”表示“天津”,“2”表示“济南”,然后录入相关数据。录入完成后,数据如图2.11所示。

图2.11 案例2.3

数据保存后,开始展开分析,步骤如下:

进入SPSS 24.0,打开相关数据文件,选择“分析”|“描述统计”|“探索”命令,弹出如图2.12所示的对话框。

选择进行探索分析的变量。在“探索”对话框的左侧列表框中,选择“平均气温”并单击按钮使之进入“因变量列表”列表框,选择“城市”并单击按钮使之进入“因子列表”列表框,选择“月份”并单击按钮使之进入“个案标注依据”列表框。

选择是否输出统计描述或统计图。此处我们选中“两者”单选按钮。

选择输出相关描述统计量。单击“探索”对话框右上角的“统计”按钮,弹出如图2.13所示的对话框,在该对话框中可以设置相关描述统计量。我们选中全部复选框。设置完毕后,单击“继续”按钮返回“探索”对话框。

图2.12 “探索”对话框

图2.13 “探索:统计”对话框

  • “描述”复选框用于输出基本描述统计量,其中系统默认“平均值的置信区间”为95%。
  • “M-估计量”复选框用于输出4种权重下的最大似然数,其中Huber的方法比较适合接近于正态分布的数据,其余的方法比较适合数据中有较多极端值的情况。
  • “离群值”复选框用于输出5个最大值和最小值。
  • “百分位数”复选框用于输出5%、10%、25%、50%、75%、90%以及95%的百分位数。

设置统计图的输出。单击“探索”对话框中的“图”按钮,弹出如图2.14所示的对话框,可以设置有关的图形输出。在“箱图”选项组中选中“因子级别并置”单选按钮;在“描述图”选项组中选中“茎叶图”“直方图”复选框,然后选择输出带检验的正态图,并且在“含莱文检验的分布-水平图”选项组中选中“无”单选按钮。

选项设置。单击“探索”对话框中的“选项”按钮,弹出如图2.15所示的对话框,可以设置对缺失值的处理方法。选中“成列排除个案”单选按钮,即剔除变量中含缺失值的记录后再进行分析。单击“继续”按钮返回“探索”对话框。

设置完毕后,单击“确定”按钮,等待输出结果。

图2.14 “探索:图”对话框

图2.15 “探索:选项”对话框

2.3.4 结果分析

(1)数据记录统计表

从表2.7中可以读出以下信息:天津气温组共有12个样本,济南气温组也有12个样本,没有缺失值记录。

表2.7 记录统计表

(2)城市分组的各组描述统计量

从表2.8中可以看到各组的描述统计量,包括平均值、标准差、最大值、最小值、偏度等。

表2.8 描述统计量

(3)M估计量

M估计量可以用来判别数据中有无明显异常值。SPSS输出的M估计量有4种,分别是Huber、Tukey、Hampel、Andrews提出来的,其区别是使用的权重不同。从表2.9中可以看到4种不同权重下的最大似然数。容易发现,天津和济南平均气温的4个M估计量离平均数和中位数都很近,这就说明数据中应该没有明显的异常值。

(4)分组后的百分位数

百分位数是一种位置指标,它将一组观察值分为两部分,如百分位数5代表的值就表示理论上有5%的观察值比该值小,有95%的观察值比该值大。从表2.10中可以看到分组后的各个百分位数。

表2.9 M估计量

表2.10 百分位数

(5)最大最小值(TOP5)

表2.11给出了分组后的5个最大值和最小值。

表2.11 最大值和最小值

(6)正态分布的检验结果

如表2.12所示,两组的显著性都很低,正态分布特征不明显。

表2.12 正态分布的检验结果

(7)直方图

两座城市平均气温的直方图如图2.16所示,容易发现,两组的各月平均气温都无明显集中趋势。

图2.16 直方图

图2.17 茎叶图

(8)茎叶图

如图2.17所示是两组数据的茎叶图。从左向右分别是频数、茎、叶三部分。其中茎代表数值的整数部分,叶代表数值的小数部分。由每行的茎叶构成的数字再乘以茎宽,则为实际数据的近似值。

(9)正态概率图

图2.18是天津气温的正态概率图,其中的斜线表示正态分布的标准线,点表示实际数据的分布,各点越接近于直线,则数据的分布越接近于正态分布。本例中分布拟合度不是很好,说明正态分布并不明显。

(10)去掉趋势的正态概率图

图2.19是去掉趋势的正态概率图。去掉趋势的正态概率图反映的是按正态分布计算的理论值和实际值之差(也就是残差)的分布情况。如果数据服从正态分布,数据点应该均匀地分布在中间标准线的上下。本例中,数据点的分布不仅不均匀,还存在着一定的波动趋势,所以正态分布特征不明显。

图2.18 正态概率图

图2.19 去掉趋势的正态概率图

(11)箱图

图2.20给出了天津气温和济南气温的箱图。其中箱为四分位间距的范围,所谓四分位距就是百分位数75代表的值减去百分位数25代表的值。中间的粗线表示平均数,上面和下面的细线分别表示最大值和最小值。

图2.20 箱图

2.4 实例4——列联表分析

2.4.1 列联表分析的功能与意义

列联表分析(Crosstabs)是通过分析多个变量在不同取值情况下的数据分布情况,从而进一步分析多个变量之间相互关系的一种描述性分析方法。列联表分析至少指定两个变量,分别为行变量和列变量,如果要进行分层分析,则还要规定层变量。通过列联表分析,不仅可以得到交叉分组下的频数分布,还可以通过分析得到变量之间的相关关系。

2.4.2 相关数据来源

【例2.4】表2.13给出了山东省两所学校的高三毕业生的升学情况。试据此对两所学校学生的升学情况进行列联表分析,研究两所学校的学生升学率之间有无明显的差别。

表2.13 甲乙两所中学高三毕业生的升学情况表

2.4.3 SPSS分析过程

在用SPSS进行分析之前,我们要把数据录入到SPSS中。本例中3个变量分别是学校、升学和计数。我们把学校定义为字符型变量,把升学和计数定义为数值型变量,对学校和升学两个变量进行相应的值标签操作,对学校变量用“1”表示“甲中学”,“2”表示“乙中学”,对升学变量用“1”表示“升学”,“0”表示“未升学”,然后录入相关数据。录入完成后,数据如图2.21所示。

图2.21 案例2.4数据

图2.22 “个案加权”对话框

对数据进行保存,然后展开分析,步骤如下:

进入SPSS 24.0,对数据进行预处理,以计数变量对升学变量进行加权。选择“数据”|“个案加权”命令,弹出如图2.22所示的对话框。在“个案加权”对话框中选中“个案加权系数”单选按钮,然后在左侧的列表框中选中“计数”,单击按钮,使之进入“频率变量”列表框中。单击“确定”按钮,完成数据预处理。

选择“分析”|“描述统计”|“交叉表”命令,弹出如图2.23所示的对话框。首先定义行变量,在对话框左侧选择“学校”并单击按钮,使之进入右侧的“行”列表框。然后定义列变量,在左侧的列表中选择“升学”并单击按钮,使之进入右侧的“列”列表框。因为没有别的变量参与列联表分析,所以这里没有层控制变量。最后选中“显示簇状条形图”复选框。

选择检验统计量的计算方法。单击“交叉表”对话框右上角的“精确”按钮,弹出如图2.24所示的对话框,选中“仅渐进法”单选按钮,单击“继续”按钮,返回“交叉表”对话框。

选择相关统计检验。单击“交叉表”对话框右侧的“统计”按钮,弹出如图2.25所示的对话框,在该对话框中可以设置相关统计检验。选中“卡方”复选框,用于检验学校和升学之间是否相关。

图2.23 “交叉表”对话框

图2.24 “精确检验”对话框

选择列联表单元格中需要计算的指标。单击“交叉表”对话框右侧的“单元格”按钮,弹出如图2.26所示的对话框,在该对话框中可以设置相关输出内容。在“计数”选项组中选中“实测”复选框;在“百分比”选项组中选择“行”“列”“总计”复选框;在“非整数权重”选项组中选中“单元格计数四舍五入”复选框。设置完毕后,单击“继续”按钮返回“交叉表”对话框。

图2.25 “交叉表:统计”对话框

图2.26 “交叉表:单元格显示”对话框

最后选择行变量是升序排列还是降序排列。单击“交叉表”对话框右侧的“格式”按钮,弹出如图2.27所示的对话框,在该对话框中可以设置行变量的排序方式。这里选中“升序”单选按钮。

图2.27 “交叉表:表格式”对话框

设置完毕后,单击“确定”按钮,等待输出结果。

2.4.4 结果分析

(1)本例的数据信息

如表2.14所示,样本数为2960,没有缺失值。

表2.14 样本统计

(2)列联表

如表2.15所示,甲中学的升学率是90%,未升学率是10%;乙中学的升学率是71.4%,未升学率是28.6%。甲中学的升学人数占全部升学人数的39.1%,乙中学的升学人数占全部升学人数的60.9%;甲中学的未升学人数占全部未升学人数的15.2%,乙中学的未升学人数占全部未升学人数的84.8%。

表2.15 列联表

(3)卡方检验结果

如表2.16所示,卡方检验的结果是非常显著的,说明两个学校的升学率之间有着明显的差别。

表2.16 卡方检验

(4)频数分布图

分组下的频数分布如图2.28所示。

图2.28 频数分布图

2.5 本章习题

1. 试针对第2.2节中山东省某高校50名大一入学新生的体重数据做频数分析。

2. 试针对第2.1节中山东省某学校50名高二学生的身高数据做描述性分析。

3. 表2.17给出了广东省东部和西部主要年份的年降雨量。试据此对广东省东部和西部主要年份的年降雨量进行探索性统计分析,研究其基本特征。

表2.17 广东省东部和西部主要年份年降雨量(单位:毫米)

4. 表2.18给出了山东省某两所初中学校(X中学和Y中学)的初三毕业生的升学情况。试据此对两所学校学生的升学情况进行列联表分析,研究两所学校学生的升学率之间有无明显的差别。

表2.18 X中学和Y中学初三毕业生的升学情况表