上QQ阅读APP看书，第一时间看更新

第3章　SPSS 24.0基本统计分析

在进行统计分析和建模之前，一般要对数据做一些描述性的工作。通过调用SPSS的相关过程，可以得到数据的基本统计指标。例如，对于定量数据，可以得到均值和标准差等指标；对于分类数据，可以得到频数和比率等指标，还可以进行卡方检验等。本章将结合大量实例和图形，详细介绍这些过程的具体操作并对结果进行解释。

3.1　描述性分析

描述性分析过程主要用于对连续变量做描述性分析，可以输出多种类型的统计量，也可以将原始数据转换成标准Z分值并存入当前数据集。本节将结合实例对几个常用基本统计量的描述性分析过程进行详细介绍。

3.1.1　基本统计量的计算与描述性分析简介

描述性分析主要是对数据进行基础性描述，主要用于描述变量的基本特征。SPSS中的描述性分析过程可以生成相关的描述性统计量，如均值、方差、标准差、全距、峰度和偏度等，同时描述性分析过程还将原始数据转换为Z分值并作为变量存储，通过这些描述性统计量，我们可以对变量变化的综合特征进行全面的了解。

1．表示集中趋势的统计量

（1）均值

均值分析可以分为算数平均数、调和平均数及几何平均数3种。

①　算数平均数。算数平均数是集中趋势中常用且重要的测度值。它是将总体标志总量除以总体单位总量而得到的均值。算数平均数的基本公式是：

算数平均数=总体标志总量/总体单位总量

根据所掌握资料的表现形式不同，算数平均数有简单算数平均数和加权算数平均数两种。

简单算数平均数是将总体各单位每一个标志值加总得到的标志总量除以单位总量而求出的平均指标。其计算方法如公式（3-1）所示：

简单算数平均数适用于总体单位数较少的未分组资料。如果所给的资料是已经分组的次数分布数列，则算数平均数的计算应采用加权算数平均数的形式。

加权算数平均数是首先用各组的标志值乘以相应的各组单位数求出各组标志总量，并加总求得总体标志总量，然后将总体标志总量和总体单位总量对比。其计算过程如公式（3-2）所示：

其中f表示各组的单位数，或者说是频数和权数。

②　调和平均数。调和平均数又称倒数平均数，它是根据各变量值的倒数来计算的平均数。具体地讲，调和平均数是各变量值倒数的算数平均数的倒数。调和平均数的计算方法，根据所掌握的资料不同，也有简单和加权两种形式。

③　几何平均数。几何平均数是与算数平均数和调和平均数不同的另一种平均指标，它是几何级数的平均数。几何平均数是计算平均比率或平均发展速度常用的统计量，几何平均数可以反映现象总体的一般水平。根据所掌握资料的不同，几何平均数也有简单和加权两种形式。

（2）中位数

中位数是将总体单位某一变量的各个变量值按大小顺序排列，处在数列中间位置的那个变量值就是中位数。

在资料未分组的情况下，将各变量值按大小顺序排列后，首先确定中位数的位置，可用公式确定，n代表总体单位的项数；然后根据中点位置确定中位数。有两种情况：当n为奇数项时，则中位数就是居于中间位置的那个变量值；当n为偶数项时，则中位数是位于中间位置的两个变量值的算数平均数。

（3）众数

众数是总体中出现次数较多的标志值。众数只有在总体单位较多而又有明确的集中趋势的资料中才有意义。单项数列中，出现最多的那个组的标志值就是众数。若在数列中有两组的次数是相同的，且次数最多，则就是双众数或复众数。

（4）百分位数

如果将一组数据排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。常用的有四分位数，指的是将数据分为四等份，分别位于25%、50%和75%处的分位数。百分位数适合于定序数据及更高级的数据，不能用于定类数据。百分位数的优点是不受极端值的影响。

2．表示离中趋势的统计量

（1）方差与标准差

方差是总体各单位变量值与其算数平均数的离差平方的算数平均数，用σ²表示，方差的平方根就是标准差σ。与方差不同的是，标准差是具有量纲的，它与变量值的计量单位相同，其实际意义要比方差清楚。因此，在对社会经济现象进行分析时，往往更多地使用标准差。

根据所掌握的资料不同，方差和标准差的计算有两种形式：简单平均式和加权平均式。

在资料未分组的情况下，采用简单平均式，如公式（3-3）所示：

在资料分组的情况下，采用加权平均式，如公式（3-4）所示：

（2）均值标准误差

均值标准误差就是样本均值的标准差，是描述样本均值和总体均值平均偏差程度的统计量。

（3）极差或范围

极差又称全距，它是总体单位中最大变量值与最小变量值之差，即两极之差，以R表示。根据全距的大小来说明变量值变动范围的大小。如公式（3-5）所示：

极差只是利用了一组数据两端的信息，不能反映出中间数据的分散状况，因而不能准确描述出数据的分散程度，且易受极端值的影响。

（4）最大值

顾名思义，最大值即样本数据中取值最大的数据。

（5）最小值

样本数据中取值最小的数据。

（6）变异系数

变异系数是将标准差或平均差与其平均数对比所得的比值，又称离散系数。计算公式如（3-6）~（3-7）所示：

V_σ和V_D分别表示标准差系数和平均差系数。变异系数是一个无名数的数值，可用于比较不同数列的变异程度。其中，常用的变异系数是标准差系数。

3．表示分布形态的统计量

（1）偏度

偏度是对分布偏斜方向及程度的测度。测量偏斜的程度需要计算偏态系数，本书仅介绍中心矩偏态测度法。常用三阶中心矩除以标准差的三次方，表示数据分布的相对偏斜程度，用a₃表示。其计算公式如（3-8）所示：

在公式（3-8）中，a₃为正，表示分布为右偏；a₃为负，则表示分布为左偏。

（2）峰度

峰度是频数分布曲线与正态分布相比较，顶端的尖峭程度。统计上常用四阶中心矩测定峰度，其计算公式如（3-9）所示：

当a₄=3时，分布曲线为正态分布；

当a₄<3时，分布曲线为平峰分布；

当a₄>3时，分布曲线为尖峰分布。

4．其他相关的统计量

Z标准化得分

Z标准化得分是某一数据与平均数的距离以标准差为单位的测量值。其计算公式如（3-10）所示：

在公式（3-10）中，Z_i即为X_i的Z标准化得分。Z标准化数据越大，说明它离平均数越远。

标准化值不仅能表明各原始数据在一组数据分布中的相对位置，而且能在不同分布的各组原始数据间进行比较，同时还能接受代数方法的处理。因此，标准化值在统计分析中起着十分重要的作用。

3.1.2　描述性分析的SPSS操作

首先打开相应的数据文件，或者建立一个数据文件后，就可以在SPSS Statistics数据编辑器窗口中进行描述性统计分析。

1）在SPSS Statistics数据编辑器窗口的菜单栏中选择“分析”|“描述统计”|“描述”命令，打开如图3-1所示的“描述”对话框。

2）选择变量。

先从源变量列表框中选择需要描述的变量，然后单击按钮将需要描述的变量选入“变量”列表框中，如图3-2所示。

图3-1　“描述”对话框

图3-2　选入要描述的变量

3）进行选项设置。

单击右侧的“选项”按钮，弹出如图3-3所示的“描述：选项”对话框。

“描述：选项”对话框用于指定需要输出和计算的基本统计量和结果输出的显示顺序，分为4个部分。

①　“平均值”和“总和”复选框。选中“平均值”复选框，表示输出变量的算术平均数；选中“总和”复选框，表示输出各个变量的合计数。

②　“离散”选项组。该选项组用于输出离中趋势统计量，共有6个复选框：“标准差”“方差”“最小值”“最大值”“范围”“标准误差平均值”，选中这些复选框分别表示输出变量的标准差、方差、最小值、最大值、范围、平均值的标准误。

③　“分布”选项组。该选项组用于输出表示分布的统计量：

图3-3　“描述：选项”对话框

“峰度”复选框，选中该复选框，表示输出变量的峰度统计量。
“偏度”复选框，选中该复选框，表示输出变量的偏度统计量。

④　“显示顺序”选项组。该选项组用于设置变量的排列顺序。有以下4种选择：

变量列表：表示按变量列表中变量的顺序进行排序。
字母：表示按变量列表中变量的首字母的顺序排序。
按平均值的升序排序：表示按变量列表中变量的均值的升序排序。
按平均值的降序排序：表示按变量列表中变量的均值的降序排序。

其中，系统默认的基本统计量是“平均值”“标准差”“最大值”“最小值”和“显示顺序”选项组中的“变量列表”。

设置完毕后，单击“继续”按钮，返回到“描述”对话框。

4）设置“将标准化值另存为变量”复选框。

如果选中该复选框，则表示为变量列表中的每一个要分析描述的变量都要计算Z标准化得分，并且系统会将每个变量的Z标准化得分保存到数据文件中（其中，新变量的命名方式是在源变量的变量名前加Z，如源变量名为“Math”，则生成的新变量名为“ZMath”）。

5）分析结果输出。

单击“确定”按钮，就可以在SPSS Statistics查看器窗口中得到所选择的变量描述性分析的结果。

单击“重置”按钮，即可以重新选择变量，重新设置“选项”。

3.1.3　实验操作

下面将以“3-1”数据文件为例，说明描述性分析的具体操作过程并对结果进行说明解释。

1．实验数据的描述

“3-1”数据文件记录了两个班级学生的数学成绩、语文成绩信息，以此数据文件为例，利用描述性分析该数据文件中的一些基本统计量。Excel原始数据文件如图3-4所示。

首先在SPSS变量视图中建立变量“ID”“Math”和“CHINESE”，分别表示班级、数学成绩和语文成绩，3个变量的度量标准均为“度量”，如图3-5所示。

图3-4　“3-1”原始数据文件

图3-5　“3-1”数据文件的变量视图

然后在SPSS数据视图中把相关数据输入到各个变量中。其中，“ID”变量中“1”表示“一班”“2”表示“二班”。输入完毕后部分数据如图3-6所示。

图3-6　输入完毕后部分数据

2．实验操作步骤

Step01　打开“3-1”数据文件，进入SPSS Statistics数据编辑器窗口，然后在菜单栏中选择“分析”|“描述统计”|“描述”命令，打开“描述”对话框，将“数学（Math）”“语文（CHINESE）”选入“变量”列表框中。

Step02　单击“选项”按钮，弹出“描述：选项”对话框，选中“最大值”“最小值”“平均值”“标准差”“峰度”和“偏度”复选框，在“显示顺序”选项组中选中“变量列表”单选按钮，显示结果将按照数学、语文的顺序排列，然后单击“继续”按钮，返回“描述”对话框。

Step03　选中“将标准化值另存为变量（Z）”复选框，最后单击“确定”按钮。

3．实验结果及分析

选定需要进行描述分析的变量和设置所需要得到的统计量之后，单击“确定”按钮就可以得到描述性分析的结果，如图3-7和图3-8所示。

图3-7　描述统计量

图3-7给出了描述性分析的主要结果。从该图可以得到各个变量的个数、最大值、最小值等统计量。以“数学”成绩为例，从描述性分析的结果可以看出：数学成绩的最低分是46分，最高分是99分，平均分为78.71，表示成绩波动程度的标准差为10.617，样本成绩的偏度小于零，峰度小于正态分布的峰度3，可见成绩的分布右偏，不服从正态分布。

从图3-8可以看出，在选中“将标准化值另存为变量（Z）”复选框后，数据文件中就会增加两个新的变量“ZMath”和“ZCHINESE”，分别表示“数学”“语文”的Z标准化值。以“ZMath”为例，通过该统计量可以看出，大于零的数值表示该学生的数学成绩比平均分要高，小于零的数值表示该学生的数学成绩要比平均分低，如第1个数值为-3.08124，即该学生比整个平均分要低3个标准差。

图3-8　“3-1”数据文件的数据视图

3.2　频数分析

频数分析是描述性统计中最常用的方法之一。SPSS的频数分析过程不但可以分析变量变化的基本趋势，还可以生成相应的统计图表。

3.2.1　频数分析简介

频数，也称频率，表示一个变量在不同取值下的个案数。频数分析可以对数据的分布趋势进行初步分析，为深入分析打下基础。SPSS中的频数分析过程可以方便地产生详细的频数分布表，使数据分析者可以对数据特征与数据的分布有一个直观的认识。此外，SPSS的频数分析过程还可以给出相应百分点的数值，因而其在分类变量和不服从正态分布变量的描述中具有广泛的应用。

3.2.2　频数分析的SPSS操作

打开相应的数据文件或者建立一个数据文件后，即可以在SPSS Statistics数据编辑器窗口中进行频数分析，过程如下：

1）在菜单栏中选择“分析”|“描述统计”|“频率”命令，打开如图3-9所示的“频率”对话框。

2）选择变量。

在源变量列表框中选择一个或多个变量，单击按钮使其选入“变量”列表框中作为频数分析的变量。

3）进行相应的设置。

“统计”设置

单击“统计”按钮，打开如图3-10所示的“频率：统计”对话框。

图3-9　“频率”对话框

图3-10　“频率：统计”对话框

该对话框用于设置需要在输出结果中出现的统计量，主要包括4个选项组。

①　百分位值。该选项组主要用于设置输出的百分位数，包括以下3个复选框：

“四分位数”复选框，用于输出四分位数。
“分割点”复选框，用于输出等间隔的百分位数，在其后的文本框中可以输入介于2~100的整数。
“百分位数”复选框，用于输出用户自定义的百分位数。在其后的文本框中输入自定义的百分位数，然后单击“添加”按钮加入相应列表框即可在结果中输出。对于已经加入列表框的百分位数，用户还可以通过“更改”和“除去”按钮进行修改和删除操作。

②　集中趋势。该选项组用于设置输出表示数据集中趋势的统计量，包括“平均值”“中位数”“众数”和”总和”4个复选框，分别用于输出的均值、中位数、众数和样本数。

③　离散。该选项组用于设置输出表示数据离中趋势的统计量，包括“标准差”“方差”“最小值”“最大值”“范围”和“标准误差平均值”6个复选框，用于输出的标准差、方差、最小值、最大值、全距和均值的标准误差。

④　分布。该选项组用于设置输出表示数据分布的统计量，包括“偏度”和“峰度”两个复选框，用于输出样本的偏度和峰度。

⑤　“值为组的中点”复选框。当原始数据采用的是取组中值的分组数据时（如所有收入在1000~2000元人的收入都记录为1500元），选中该复选框。

“图表”设置

单击“图表”按钮，打开如图3-11所示的“频率：图表”对话框。

该对话框用于设置输出的图表，主要包括两个选项组。

①　图表类型。该选项组用于设置输出的图表类型，有4种选择：“无”表示不输出任何图表；“条形图”表示输出条形图；“饼图”表示输出饼状图；“直方图”表示输出直方图（仅适用于数值型变量），若选中“在直方图上显示正态曲线”复选框，则表示在输出图形中包含正态曲线。

②　图表值。该选项组仅对条形图和饼图有效，包括频率和百分比两个选项。

“格式”设置

单击“格式”按钮，打开“频率：格式”对话框，如图3-12所示。

图3-11　“频率：图表”对话框

图3-12　“频率：格式”对话框

该对话框用于设置输出格式，主要包括两个选项组。

①　排序方式。该选项组用于设置输出表格内容的排序方式，包括“按值的升序排序”“按值的降序排序”“按计数的升序排序”和“按计数的降序排序”4个选择，分别表示按变量值和频数的升序或降序排列。

②　多个变量。该选项组用于设置变量的输出方式，包括两个选项：“比较变量”表示将所有变量在一个表格中输出；“按变量组织输出”表示每个变量单独列表输出。

③　“排除具有多个类别的表”复选框。选中该复选框后，可以在下面的“最大类别数”文本框中输入最大能显示的分组数量，当频数表的分组数量大于此临界值时不做输出。

设置完毕后，单击“继续”按钮，返回到“频率”对话框。

4）分析结果输出。

单击“确定”按钮，就可以在SPSS Statistics查看器窗口得到所选择的变量频数分析的结果。

3.2.3　实验操作

下面将以数据文件“3-2”为例，说明频数分析的具体操作过程。

1．实验数据描述

数据文件“3-2”显示了2008年我国各个地区制造业的就业人数，数据来源于《中国统计年鉴2008》。以该数据文件为例，利用频数分析对不同地区的就业情况进行分析，显示四分位数、均值和标准差，绘制频率分布直方图和正态曲线，并判断分布形态。

本数据文件的原始Excel文件如图3-13所示（单位：万）。

在SPSS的变量视图中，建立变量“地区”和“制造业”，如图3-14所示。

图3-13　数据文件“3-2”原始数据

图3-14　数据文件“3-2”的变量视图

在SPSS活动数据文件中的数据视图中，把相关数据输入到各个变量中，输入后部分数据如图3-15所示。