第3章 SPSS 24.0基本统计分析
在进行统计分析和建模之前,一般要对数据做一些描述性的工作。通过调用SPSS的相关过程,可以得到数据的基本统计指标。例如,对于定量数据,可以得到均值和标准差等指标;对于分类数据,可以得到频数和比率等指标,还可以进行卡方检验等。本章将结合大量实例和图形,详细介绍这些过程的具体操作并对结果进行解释。
3.1 描述性分析
描述性分析过程主要用于对连续变量做描述性分析,可以输出多种类型的统计量,也可以将原始数据转换成标准Z分值并存入当前数据集。本节将结合实例对几个常用基本统计量的描述性分析过程进行详细介绍。
3.1.1 基本统计量的计算与描述性分析简介
描述性分析主要是对数据进行基础性描述,主要用于描述变量的基本特征。SPSS中的描述性分析过程可以生成相关的描述性统计量,如均值、方差、标准差、全距、峰度和偏度等,同时描述性分析过程还将原始数据转换为Z分值并作为变量存储,通过这些描述性统计量,我们可以对变量变化的综合特征进行全面的了解。
1.表示集中趋势的统计量
(1)均值
均值分析可以分为算数平均数、调和平均数及几何平均数3种。
① 算数平均数。算数平均数是集中趋势中常用且重要的测度值。它是将总体标志总量除以总体单位总量而得到的均值。算数平均数的基本公式是:
算数平均数=总体标志总量/总体单位总量
根据所掌握资料的表现形式不同,算数平均数有简单算数平均数和加权算数平均数两种。
- 简单算数平均数是将总体各单位每一个标志值加总得到的标志总量除以单位总量而求出的平均指标。其计算方法如公式(3-1)所示:
简单算数平均数适用于总体单位数较少的未分组资料。如果所给的资料是已经分组的次数分布数列,则算数平均数的计算应采用加权算数平均数的形式。
- 加权算数平均数是首先用各组的标志值乘以相应的各组单位数求出各组标志总量,并加总求得总体标志总量,然后将总体标志总量和总体单位总量对比。其计算过程如公式(3-2)所示:
其中f表示各组的单位数,或者说是频数和权数。
② 调和平均数。调和平均数又称倒数平均数,它是根据各变量值的倒数来计算的平均数。具体地讲,调和平均数是各变量值倒数的算数平均数的倒数。调和平均数的计算方法,根据所掌握的资料不同,也有简单和加权两种形式。
③ 几何平均数。几何平均数是与算数平均数和调和平均数不同的另一种平均指标,它是几何级数的平均数。几何平均数是计算平均比率或平均发展速度常用的统计量,几何平均数可以反映现象总体的一般水平。根据所掌握资料的不同,几何平均数也有简单和加权两种形式。
(2)中位数
中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的那个变量值就是中位数。
在资料未分组的情况下,将各变量值按大小顺序排列后,首先确定中位数的位置,可用公式确定,n代表总体单位的项数;然后根据中点位置确定中位数。有两种情况:当n为奇数项时,则中位数就是居于中间位置的那个变量值;当n为偶数项时,则中位数是位于中间位置的两个变量值的算数平均数。
(3)众数
众数是总体中出现次数较多的标志值。众数只有在总体单位较多而又有明确的集中趋势的资料中才有意义。单项数列中,出现最多的那个组的标志值就是众数。若在数列中有两组的次数是相同的,且次数最多,则就是双众数或复众数。
(4)百分位数
如果将一组数据排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。常用的有四分位数,指的是将数据分为四等份,分别位于25%、50%和75%处的分位数。百分位数适合于定序数据及更高级的数据,不能用于定类数据。百分位数的优点是不受极端值的影响。
2.表示离中趋势的统计量
(1)方差与标准差
方差是总体各单位变量值与其算数平均数的离差平方的算数平均数,用σ2表示,方差的平方根就是标准差σ。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,往往更多地使用标准差。
根据所掌握的资料不同,方差和标准差的计算有两种形式:简单平均式和加权平均式。
- 在资料未分组的情况下,采用简单平均式,如公式(3-3)所示:
- 在资料分组的情况下,采用加权平均式,如公式(3-4)所示:
(2)均值标准误差
均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量。
(3)极差或范围
极差又称全距,它是总体单位中最大变量值与最小变量值之差,即两极之差,以R表示。根据全距的大小来说明变量值变动范围的大小。如公式(3-5)所示:
极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度,且易受极端值的影响。
(4)最大值
顾名思义,最大值即样本数据中取值最大的数据。
(5)最小值
样本数据中取值最小的数据。
(6)变异系数
变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。计算公式如(3-6)~(3-7)所示:
Vσ和VD分别表示标准差系数和平均差系数。变异系数是一个无名数的数值,可用于比较不同数列的变异程度。其中,常用的变异系数是标准差系数。
3.表示分布形态的统计量
(1)偏度
偏度是对分布偏斜方向及程度的测度。测量偏斜的程度需要计算偏态系数,本书仅介绍中心矩偏态测度法。常用三阶中心矩除以标准差的三次方,表示数据分布的相对偏斜程度,用a3表示。其计算公式如(3-8)所示:
在公式(3-8)中,a3为正,表示分布为右偏;a3为负,则表示分布为左偏。
(2)峰度
峰度是频数分布曲线与正态分布相比较,顶端的尖峭程度。统计上常用四阶中心矩测定峰度,其计算公式如(3-9)所示:
当a4=3时,分布曲线为正态分布;
当a4<3时,分布曲线为平峰分布;
当a4>3时,分布曲线为尖峰分布。
4.其他相关的统计量
Z标准化得分
Z标准化得分是某一数据与平均数的距离以标准差为单位的测量值。其计算公式如(3-10)所示:
在公式(3-10)中,Zi即为Xi的Z标准化得分。Z标准化数据越大,说明它离平均数越远。
标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各组原始数据间进行比较,同时还能接受代数方法的处理。因此,标准化值在统计分析中起着十分重要的作用。
3.1.2 描述性分析的SPSS操作
首先打开相应的数据文件,或者建立一个数据文件后,就可以在SPSS Statistics数据编辑器窗口中进行描述性统计分析。
1)在SPSS Statistics数据编辑器窗口的菜单栏中选择“分析”|“描述统计”|“描述”命令,打开如图3-1所示的“描述”对话框。
2)选择变量。
先从源变量列表框中选择需要描述的变量,然后单击按钮将需要描述的变量选入“变量”列表框中,如图3-2所示。
图3-1 “描述”对话框
图3-2 选入要描述的变量
3)进行选项设置。
单击右侧的“选项”按钮,弹出如图3-3所示的“描述:选项”对话框。
“描述:选项”对话框用于指定需要输出和计算的基本统计量和结果输出的显示顺序,分为4个部分。
① “平均值”和“总和”复选框。选中“平均值”复选框,表示输出变量的算术平均数;选中“总和”复选框,表示输出各个变量的合计数。
② “离散”选项组。该选项组用于输出离中趋势统计量,共有6个复选框:“标准差”“方差”“最小值”“最大值”“范围”“标准误差平均值”,选中这些复选框分别表示输出变量的标准差、方差、最小值、最大值、范围、平均值的标准误。
③ “分布”选项组。该选项组用于输出表示分布的统计量:
图3-3 “描述:选项”对话框
- “峰度”复选框,选中该复选框,表示输出变量的峰度统计量。
- “偏度”复选框,选中该复选框,表示输出变量的偏度统计量。
④ “显示顺序”选项组。该选项组用于设置变量的排列顺序。有以下4种选择:
- 变量列表:表示按变量列表中变量的顺序进行排序。
- 字母:表示按变量列表中变量的首字母的顺序排序。
- 按平均值的升序排序:表示按变量列表中变量的均值的升序排序。
- 按平均值的降序排序:表示按变量列表中变量的均值的降序排序。
其中,系统默认的基本统计量是“平均值”“标准差”“最大值”“最小值”和“显示顺序”选项组中的“变量列表”。
设置完毕后,单击“继续”按钮,返回到“描述”对话框。
4)设置“将标准化值另存为变量”复选框。
如果选中该复选框,则表示为变量列表中的每一个要分析描述的变量都要计算Z标准化得分,并且系统会将每个变量的Z标准化得分保存到数据文件中(其中,新变量的命名方式是在源变量的变量名前加Z,如源变量名为“Math”,则生成的新变量名为“ZMath”)。
5)分析结果输出。
单击“确定”按钮,就可以在SPSS Statistics查看器窗口中得到所选择的变量描述性分析的结果。
单击“重置”按钮,即可以重新选择变量,重新设置“选项”。
3.1.3 实验操作
下面将以“3-1”数据文件为例,说明描述性分析的具体操作过程并对结果进行说明解释。
1.实验数据的描述
“3-1”数据文件记录了两个班级学生的数学成绩、语文成绩信息,以此数据文件为例,利用描述性分析该数据文件中的一些基本统计量。Excel原始数据文件如图3-4所示。
首先在SPSS变量视图中建立变量“ID”“Math”和“CHINESE”,分别表示班级、数学成绩和语文成绩,3个变量的度量标准均为“度量”,如图3-5所示。
图3-4 “3-1”原始数据文件
图3-5 “3-1”数据文件的变量视图
然后在SPSS数据视图中把相关数据输入到各个变量中。其中,“ID”变量中“1”表示“一班”“2”表示“二班”。输入完毕后部分数据如图3-6所示。
图3-6 输入完毕后部分数据
2.实验操作步骤
Step01 打开“3-1”数据文件,进入SPSS Statistics数据编辑器窗口,然后在菜单栏中选择“分析”|“描述统计”|“描述”命令,打开“描述”对话框,将“数学(Math)”“语文(CHINESE)”选入“变量”列表框中。
Step02 单击“选项”按钮,弹出“描述:选项”对话框,选中“最大值”“最小值”“平均值”“标准差”“峰度”和“偏度”复选框,在“显示顺序”选项组中选中“变量列表”单选按钮,显示结果将按照数学、语文的顺序排列,然后单击“继续”按钮,返回“描述”对话框。
Step03 选中“将标准化值另存为变量(Z)”复选框,最后单击“确定”按钮。
3.实验结果及分析
选定需要进行描述分析的变量和设置所需要得到的统计量之后,单击“确定”按钮就可以得到描述性分析的结果,如图3-7和图3-8所示。
图3-7 描述统计量
图3-7给出了描述性分析的主要结果。从该图可以得到各个变量的个数、最大值、最小值等统计量。以“数学”成绩为例,从描述性分析的结果可以看出:数学成绩的最低分是46分,最高分是99分,平均分为78.71,表示成绩波动程度的标准差为10.617,样本成绩的偏度小于零,峰度小于正态分布的峰度3,可见成绩的分布右偏,不服从正态分布。
从图3-8可以看出,在选中“将标准化值另存为变量(Z)”复选框后,数据文件中就会增加两个新的变量“ZMath”和“ZCHINESE”,分别表示“数学”“语文”的Z标准化值。以“ZMath”为例,通过该统计量可以看出,大于零的数值表示该学生的数学成绩比平均分要高,小于零的数值表示该学生的数学成绩要比平均分低,如第1个数值为-3.08124,即该学生比整个平均分要低3个标准差。
图3-8 “3-1”数据文件的数据视图
3.2 频数分析
频数分析是描述性统计中最常用的方法之一。SPSS的频数分析过程不但可以分析变量变化的基本趋势,还可以生成相应的统计图表。
3.2.1 频数分析简介
频数,也称频率,表示一个变量在不同取值下的个案数。频数分析可以对数据的分布趋势进行初步分析,为深入分析打下基础。SPSS中的频数分析过程可以方便地产生详细的频数分布表,使数据分析者可以对数据特征与数据的分布有一个直观的认识。此外,SPSS的频数分析过程还可以给出相应百分点的数值,因而其在分类变量和不服从正态分布变量的描述中具有广泛的应用。
3.2.2 频数分析的SPSS操作
打开相应的数据文件或者建立一个数据文件后,即可以在SPSS Statistics数据编辑器窗口中进行频数分析,过程如下:
1)在菜单栏中选择“分析”|“描述统计”|“频率”命令,打开如图3-9所示的“频率”对话框。
2)选择变量。
在源变量列表框中选择一个或多个变量,单击按钮使其选入“变量”列表框中作为频数分析的变量。
3)进行相应的设置。
“统计”设置
单击“统计”按钮,打开如图3-10所示的“频率:统计”对话框。
图3-9 “频率”对话框
图3-10 “频率:统计”对话框
该对话框用于设置需要在输出结果中出现的统计量,主要包括4个选项组。
① 百分位值。该选项组主要用于设置输出的百分位数,包括以下3个复选框:
- “四分位数”复选框,用于输出四分位数。
- “分割点”复选框,用于输出等间隔的百分位数,在其后的文本框中可以输入介于2~100的整数。
- “百分位数”复选框,用于输出用户自定义的百分位数。在其后的文本框中输入自定义的百分位数,然后单击“添加”按钮加入相应列表框即可在结果中输出。对于已经加入列表框的百分位数,用户还可以通过“更改”和“除去”按钮进行修改和删除操作。
② 集中趋势。该选项组用于设置输出表示数据集中趋势的统计量,包括“平均值”“中位数”“众数”和”总和”4个复选框,分别用于输出的均值、中位数、众数和样本数。
③ 离散。该选项组用于设置输出表示数据离中趋势的统计量,包括“标准差”“方差”“最小值”“最大值”“范围”和“标准误差平均值”6个复选框,用于输出的标准差、方差、最小值、最大值、全距和均值的标准误差。
④ 分布。该选项组用于设置输出表示数据分布的统计量,包括“偏度”和“峰度”两个复选框,用于输出样本的偏度和峰度。
⑤ “值为组的中点”复选框。当原始数据采用的是取组中值的分组数据时(如所有收入在1000~2000元人的收入都记录为1500元),选中该复选框。
“图表”设置
单击“图表”按钮,打开如图3-11所示的“频率:图表”对话框。
该对话框用于设置输出的图表,主要包括两个选项组。
① 图表类型。该选项组用于设置输出的图表类型,有4种选择:“无”表示不输出任何图表;“条形图”表示输出条形图;“饼图”表示输出饼状图;“直方图”表示输出直方图(仅适用于数值型变量),若选中“在直方图上显示正态曲线”复选框,则表示在输出图形中包含正态曲线。
② 图表值。该选项组仅对条形图和饼图有效,包括频率和百分比两个选项。
“格式”设置
单击“格式”按钮,打开“频率:格式”对话框,如图3-12所示。
图3-11 “频率:图表”对话框
图3-12 “频率:格式”对话框
该对话框用于设置输出格式,主要包括两个选项组。
① 排序方式。该选项组用于设置输出表格内容的排序方式,包括“按值的升序排序”“按值的降序排序”“按计数的升序排序”和“按计数的降序排序”4个选择,分别表示按变量值和频数的升序或降序排列。
② 多个变量。该选项组用于设置变量的输出方式,包括两个选项:“比较变量”表示将所有变量在一个表格中输出;“按变量组织输出”表示每个变量单独列表输出。
③ “排除具有多个类别的表”复选框。选中该复选框后,可以在下面的“最大类别数”文本框中输入最大能显示的分组数量,当频数表的分组数量大于此临界值时不做输出。
设置完毕后,单击“继续”按钮,返回到“频率”对话框。
4)分析结果输出。
单击“确定”按钮,就可以在SPSS Statistics查看器窗口得到所选择的变量频数分析的结果。
3.2.3 实验操作
下面将以数据文件“3-2”为例,说明频数分析的具体操作过程。
1.实验数据描述
数据文件“3-2”显示了2008年我国各个地区制造业的就业人数,数据来源于《中国统计年鉴2008》。以该数据文件为例,利用频数分析对不同地区的就业情况进行分析,显示四分位数、均值和标准差,绘制频率分布直方图和正态曲线,并判断分布形态。
本数据文件的原始Excel文件如图3-13所示(单位:万)。
在SPSS的变量视图中,建立变量“地区”和“制造业”,如图3-14所示。
图3-13 数据文件“3-2”原始数据
图3-14 数据文件“3-2”的变量视图
在SPSS活动数据文件中的数据视图中,把相关数据输入到各个变量中,输入后部分数据如图3-15所示。
2.实验操作步骤
具体的操作步骤如下所示。
Step01 打开“3-2”数据文件,进入SPSS Statistics数据编辑器窗口,然后在菜单栏中选择“分析”|“描述统计”|“频率”命令,打开“频率”对话框。
图3-15 数据文件“3-2”的数据视图
Step02 在源变量列表框中选中“制造业”作为频数分析的变量。
Step03 单击“统计”按钮,选中“四分位数”“平均值”“标准差”和“偏度”复选框,单击“继续”按钮。
Step04 单击“图表”按钮,选中“直方图”单选按钮与“在直方图中显示正态曲线”复选框,单击“继续”按钮。
Step05 单击“确定”按钮,执行频数分析。
3.输出结果分析
选定需要进行频数分析的变量和设置所需要得到的统计量后,单击“确定”按钮就可以得到频数分析的结果,输出结果如图3-16所示。
图3-16 频数分析输出结果
统计量表给出了平均工资的均值、标准差、百分位数等信息,从分析结果可以看出,各地区制造业就业的平均人数为110.783,标准差为105.2184,3个百分位数分别为39.334、72.708和143.037。表的右侧为频率分布直方图和正态曲线。偏度系数为1.579,由此可以看出,各地区的平均工资呈比较明显的偏态分布。
3.3 探索分析
探索分析可以在对变量的分布特点不了解时,对变量进行相关的分析,为用户的下一步数据分析提供相应的参考。SPSS提供了方便的探索分析过程,下面介绍其相关操作。
3.3.1 探索分析简介
探索分析主要用于在数据的分布情况未知时,检验数据的特异值或输入错误,并获得数据的基本特征。SPSS的探索分析过程主要包括以下3种功能。
(1)通过绘制箱图和茎叶图等图形,直观地反映数据的分布形式,并识别输入的奇异值、异常值和丢失的数据。
(2)正态性检验:检测观测数据是否服从正态分布。
(3)等方差性检验:利用莱文检验检验不同组数据的方差是否相等。
3.3.2 探索分析的SPSS操作
打开相应的数据文件或者建立一个数据文件后,即可在SPSS Statistics数据编辑器窗口中进行探索分析,其过程如下。
图3-17 “探索”对话框
1)在SPSS Statistics数据编辑器窗口的菜单栏中选择“分析”|“描述统计”|“探索”命令,打开如图3-17所示的“探索”对话框。
2)选择变量。
从源变量列表框中选择需要分析的目标变量,然后单击按钮将选中的变量选入“因变量列表”列表框中;从源变量列表中选择分组变量,然后单击按钮选入“因子列表”列表框中;从源变量列表框中选择标注变量,单击按钮选入“个案标注依据”列表框中。
- “因变量列表”:该列表框中的变量为探索分析过程中需要分析的目标变量,变量的属性一般为连续型变量或比率变量。
- “因子列表”:该列表框中的变量为“因变量列表”中目标变量的分组变量,就是对所需要分析的目标变量进行分组表示,该变量的属性可以是字符型或数值型,但是一般变异较少。
- “个案标注依据”:一般对输出异常值时,用该变量进行标识,有且只有一个标识变量。
如将图3-17中的源变量分别选入“因变量列表”“因子列表”“个案标注依据”列表框中,如图3-18所示。
3)进行相应的设置。
“统计”设置
单击右侧的“统计”按钮,弹出如图3-19所示的“探索:统计”对话框。
图3-18 选入各个变量
图3-19 “探索:统计”对话框
“探索:统计”对话框用于设置需要在输出结果中出现的统计量。
①“描述”复选框。选中该复选框,表示输出一些描述性分析中的基本统计量,如均值、标准差、范围等,该复选框还包括一个“平均值的置信区间”文本框,要求设置均值的置信区间的范围,可以选择1%~99%中的任意一个,但系统默认的是95%的置信区间。
②“M-估计量”复选框。选中该复选框,表示输出4种均值的稳健极大似然估计量,包括稳健估计量、非降稳健估计量、波估计值、复权重估计量,一般在样本数据非正态分布时,如金融时间序列数据的尖峰厚尾分布,用稳健极大似然估计量计算的均值更有稳健性。
③“离群值”复选框。选中该复选框,表示输出变量数据的前5个最大值和后5个最小值。
④“百分位数”复选框。选中该复选框,表示输出变量数据的百分位数。
“图”设置
单击右侧的“图”按钮,弹出如图3-20所示的“探索:图”对话框。
① “箱图”选项组。该选项组用于对箱图的参数进行设置,包括3个单选按钮:“因子级别并置”表示多个因变量箱图将按照因变量的个数分别显示;“因变量并置”,表示多个因变量箱图将不按照因变量的个数分别显示,而是一起显示在一个框图里面;“无”表示将不显示因变量的箱图。
② “描述图”选项组。该选项组用于对统计图表进行设置,包括两个复选框:“茎叶图”表示将按照因变量输出相应的茎叶图;“直方图”表示将按照因变量输出相应的直方图。
图3-20 “探索:图”对话框
③ “含莱文检验的分布-水平图”选项组。该选项组用于对数据转换的散布水平图进行设置,可以显示数据转换后的回归曲线斜率和进行方差齐性的莱文检验,包括4个单选按钮:“无”表示将不输出变量的散布水平图;“幂估算”表示对每一个变量数据产生一个中位数的自然对数和四分位数的自然对数的散点图,还可以对各个变量数据方差转化为同方差所需要幂的估计;“转换后”表示对因变量数据进行相应的转换,具体的转换方法有自然对数变换、1/平方根的变换、倒数变换、平方根变换、平方变换、立方变换;“未转换”表示不对原始数据进行任何变换。
④ “含检验的正态图”复选框。选中该复选框,可以输出变量数据的正态概率图和离散正态概率图,同时输出变量数据经过Lilliefors显著水平修正的柯尔莫戈洛夫-斯米诺夫统计量和夏皮洛-威尔克统计量。
图3-21 “探索:选项”对话框
“选项”设置
单击右侧的“选项”按钮,弹出如图3-21所示的“探索:选项”对话框。
“探索:选项”对话框用于对缺失值进行设置,设置方法有3种:“成列排除个案”表示只要任何一个变量含有缺失值,就要剔除所有因变量或分组变量中有缺失值的观测记录;“成对排除个案”表示仅仅剔除所用到的变量的缺失值;“报告值”表示将变量中含有的缺失值单独作为一个类别进行统计并输出。
设置完毕后,单击“继续”按钮,返回到“探索”对话框。
4)分析结果输出。
单击“确定”按钮,就可以在SPSS Statistics查看器窗口得到所选择的变量探索性分析的结果。
3.3.3 实验操作
下面将以“3-3”数据文件为例,说明探索分析的具体操作过程。
1.实验数据描述
“3-3”数据文件记录了两个班级学生的数学成绩、语文成绩,以此数据文件为例,利用探索分析该数据文件中的数学和语文成绩的最大值、最小值、众数、平均数等,并检验样本数据的正态性。原始Excel数据文件如图3-22所示。
在SPSS的变量视图中建立变量“id”“Math”“CHINESE”和“SEX”,分别表示学生班级、数学成绩、语文成绩和性别,在“id”变量中将“一班”和“二班”分别赋值为“1”和“2”;在“SEX”变量中将“男”和“女”分别赋值为“1”和“0”,如图3-23所示。
图3-22 “3-3”数据文件原始数据
在SPSS活动数据文件的数据视图中,把相关数据输入到各个变量中。输入后部分数据如图3-24所示。
图3-23 “3-3”数据文件的变量视图
图3-24 “3-3”数据文件的数据视图
2.实验操作步骤
Step01 打开“3-3”数据文件,输入SPSS Statistics数据编辑器窗口,然后在菜单栏中选择“分析”|“描述统计”|“探索”命令,打开“探索”对话框。
Step02 将变量“Math”选入“因变量列表”列表框,将“SEX”选入“因子列表”列表框,将“班级”选入“个案标注依据”列表框。
Step03 单击“统计”按钮,在弹出的“探索:统计”对话框中选中“描述”复选框;单击“图”按钮,在弹出的“探索:图”对话框中选中“箱图”选项组的“因子级别并置”单选按钮、“描述”选项组的“茎叶图”复选框以及“含检验的正态图”复选框。
Step04 在“探索”对话框中选中“输出”选项组的“两者”单选按钮,然后单击“确定”按钮就可以输出探索分析的结果。
3.实验结果及分析
单击“确定”按钮,SPSS Statistics查看器窗口的输出结果如图3-25~图3-31所示。
图3-25给出了探索分析中的变量样本数据的有效个数和百分比、缺失个数和百分比及合计个数和百分比。通过“个案处理摘要”可以看出本实验中无数据缺失。
图3-25 个案处理摘要
图3-26给出了数学成绩按照性别分类的一些统计量,如均值、中值、方差、标准差等。通过该图可以看出女生数学成绩均值要比男生大,而女生数学成绩中值却小于男生的中值。
图3-26 变量描述
图3-27给出了因变量样本数据按照因子变量分类的正态性检验结果。列中“统计”表示检验统计量的值,“自由度df”表示检验的自由度,“显著性Sig.”表示检验的显著水平。对本实验而言,正态检验的原假设是:数据服从正态分布。从“正态性检验”中柯尔莫戈洛夫-斯米诺夫统计量、夏皮洛-威尔克统计量可以看出,女生和男生的数学成绩的显著水平都大于5%,接受原假设,即都服从正态分布。
图3-28给出了女生数学成绩的茎叶图。图中“频率”表示相应数据的频数,“Stem”即茎,“叶”即叶子,两者分别表示数据的整数部分和小数部分,“主干宽度”表示茎宽。
图3-27 正态性检验
图3-28 茎叶图
图3-29和图3-30分别给出了女生数学成绩的标准Q-Q图和趋降Q-Q图。标准Q-Q图中的观察点都分布在直线附近,趋降Q-Q图中的点除了极个别点外都分布在0值横线附近,因此显示样本数据服从正态分布,这个结论和正态性检验的结论一致。
图3-29 标准Q-Q图
图3-30 趋降标准Q-Q图
图3-31给出了按因子变量性别区分的数学成绩的箱图,其中箱图两头的两条实线分别表示最大值和最小值,中间的黑色实线表示中位数,箱体的上下两端为四分位数。在本实验中女生数学成绩有一个编号为1的异常点或离群值。
图3-31 箱图
3.4 列联表分析
列联表分析可以进行非数值性变量的相关性分析,在理论研究和实际工作中具有广泛的应用。SPSS的交叉表分析过程可以方便地进行列联表分析,下面将介绍其相关操作。
3.4.1 列联表分析简介
列联表是将观测数据按不同属性进行分类时列出的频数表。列联表分析常用于分析离散变量的名义变量和有序变量是否相关,在市场调查和分析中具有广泛的应用。
SPSS的交叉表分析过程可以对计数资料和某些等级资料进行列联表分析,并对二维和多维列联表资料进行统计描述和卡方检验,并计算相应的百分数指标。此外,SPSS的交叉表分析过程还可以进行费希尔精确检验、对数似然比检验等统计检验并输出相关的统计量。下面是在列联表分析中用到的一些统计量。
① 总体分布检验时的卡方检验统计量。计算公式如下:
式中k为子集个数,fi为落入第i个子集的实际观测值频数,Ei是落入第i个子集的理论频数,它等于变量值落入第i个子集的频率pi(按照假设的总体分布计算)与观测值个数n的乘积Ei=npi ,如果分布的假设为真,则统计量χ2服从自由度为k-1的卡方分布。注意:一般要求Ei大于5,如果不满足要求,可以与相邻子集合并。
② 列联分析中的卡方检验统计量。计算公式如下:
式中k为列联表行数,r为列联表列数,fij为观测频数,Eij为期望频数。如果行列间的变量是相互独立的,则统计量χ2服从自由度为(k-1)(r-1)的卡方分布。
③ 似然比统计量。似然比卡方统计量适用于名义尺度的变量,其统计量为:
式中的字母含义同卡方统计量。当样本很大时,与卡方统计量接近,检验结论与卡方检验是一致的。
④ 列联系数。列联系数适用于名义尺度的变量,其统计量为:
χ2含义见卡方检验统计量,n为样本容量。列联系数趋于1时,两类变量相关程度越好。
⑤ Phi系数。Phi系数适用于名义尺度的变量,其统计量为:
Phi系数是对χ2统计量的修正。
3.4.2 列联表分析的SPSS操作
打开相应的数据文件或建立一个数据文件后,可以在SPSS Statistics数据编辑器窗口中进行列联表分析。
1)在SPSS Statistics数据编辑器窗口的菜单栏中选择“分析”|“描述统计”|“交叉表”命令,打开如图3-32所示的“交叉表”对话框。
2)选择变量。
在源变量列表框中选择行变量,然后单击按钮将选中的变量选入右侧“行”列表框中,将列变量选入右侧“列”列表框中;如果有分层变量,则将其选入右侧的“层1/1”列表框中。
①“行”列表框。该列表框中的变量为交叉分析表的行变量,变量的属性一般为数值型变量或字符型变量。
图3-32 “交叉表”对话框
②“列”列表框。该列表框中的变量为交叉分析表的列变量,变量的属性一般为数值型变量或字符型变量。
③“层1/1”列表框。该列表框中的变量为交叉表格分析中分层变量,该变量主要用于对频数分布表进行分层,对每一层都可以进行行和列的交叉表格分析。如果需要加入新的分层变量,单击“下一页”按钮;如果需要修改已经加入的分层变量,单击“上一页”按钮返回即可。
3)进行相应的设置。
“精确检验”设置
单击“精确”按钮,弹出如图3-33所示的“精确检验”对话框。
该对话框主要用于设置计算显著性水平的方法,有3种方法。
① 仅渐进法。适用于具有渐进分布的大样本数据,基于统计量的渐进分布计算相应的显著性水平(显著性),当输出的显著性水平低于临界值时,认为是显著的且可以拒绝原假设。
图3-33 “精确检验”对话框
② 蒙特卡洛法。该方法不需要样本数据具有渐进分布的前提假设,为精确显著性水平的无偏估计,是非常有效的计算确切显著性水平的方法。在“置信度级别”文本框中输入置信水平来确定置信区间的范围(默认是99%),在“样本数”文本框中输入样本的抽样次数(默认是10000次)。
③ 精确。表示给定时间限制下计算统计量的显著水平(显著性),一般在给定时间限制的情况下,使用精确方法代替蒙特卡洛估计法。另外,对于非渐进方法,计算检验统计量时,总是将单元格计数四舍五入或舍位。系统默认的精确检验方法为“仅渐进法”。
“统计”设置
单击右侧“统计”按钮,弹出如图3-34所示的“交叉表:统计”对话框。
“交叉表:统计”对话框用于设置输出的统计量。各选项(统计量)(组)含义介绍如下。
图3-34 “交叉表:统计”对话框
①卡方。选中该复选框,表示对行变量和列变量的独立性进行卡方检验。
②相关性。主要对变量进行相关系数检验,包括斯皮尔曼相关系数检验和Person相关系数检验。Person相关系数检验是按区间检验,斯皮尔曼相关系数检验则是按照顺序检验。
③ Kappa。主要通过输出Cohen’s Kappa统计量来衡量对同一对象的两种评估是否具有一致性,取值范围为0~1,1表示完全一致,0表示完全不一致。该统计量仅仅适用于行变量和列变量取值个数和范围一致时的情况。
④ 风险。用来衡量某事件(行变量)对某因素(列变量)的影响大小。建议仅对无空单元格的二维表计算。
⑤ 麦克尼马尔。通过输出麦克尼马尔-Bowker统计量来对二值变量的非参数检验,利用卡方分布对响应变化进行检验,如可以用来检验车祸前和车祸后,司机对安全意识的变化。该检验仅仅在行变量和列变量相等时才可以做。
⑥ 柯克兰和曼特尔-亨塞尔统计。该复选框是对一个二值因素变量和一个二值响应变量的独立性进行检验,在“检验一般比值比等于”文本框中输入一个正数(默认为1)。
⑦ “名义”选项组。该选项组主要用于名义变量统计量的定制,包括4个复选框。
- 列联系数:表示基于卡方检验的相关性的检验,取值在0~1之间,0表示完全不相关,1表示完全相关。
- Phi和克莱姆V:同样是两个表示相关性的检验统计量。
- Lambda:对有序变量相关性的度量,取值在-1~1之间,-1表示完全负相关、1表示完全正相关,0表示完全不相关。
- 不确定性系数:表示用一个变量预测其他变量时的预测误差降低比例,取值在0~1之间,0表示完全不能预测,1表示预测完全准确。
⑧ “有序”选项组。该选项组用于有序变量统计量的定制,包括4个复选框。
- Gamma:该统计量是对两个有序变量相关性的对称度量,取值在-1~1之间,-1表示变量之间完全负相关,1表示完全正相关,0表示完全无关。
- 萨默斯d:该统计量是对两个有序变量相关性的非对称度量,取值在-1~1之间,-1表示变量之间完全负相关,1表示完全正相关,0表示完全无关。
- 肯德尔tau-b:该统计量是对有序变量相关性的非参数检验,取值在-1~1之间,-1表示变量之间完全负相关,1表示完全正相关,0表示完全无关。
- 肯德尔tau-c:该统计量同样是对有序变量相关性的非参数检验,不过计算时不考虑相同的观测值,取值同样在-1~1之间。
⑨ “按区间标定”选项组。该选项组用于检验一个连续变量和一个分类变量的相关性,仅有一个Eta复选框,输出的是两个值,分别将列变量和行变量作为因变量进行计算,取值在0~1之间,0表示完全不相关,1表示完全相关。
“单元显示”设置
单击右侧的“单元格”按钮,弹出如图3-35所示的“交叉表:单元格显示”对话框。
“交叉表:单元格显示”对话框用于设置输出的统计量。
① “计数”选项组。该选项组用于对输出的观测值数量进行设置,包括3个复选框:“实测”表示按照变量观测值的实际数目显示;“期望”表示输出的是期望的观察值数目;若选中“隐藏较小的计数(H)”复选框,且在“小于”文本框中输入数字,将隐藏小于该数的计数。
图3-35 “交叉表:单元格显示”对话框
② “百分比”选项组。该选项组用于对百分比进行设置,包括3个复选框:“行”表示要输出行方向的百分比;“列”表示要输出列方向的百分比;“总计”表示要输出行或列方向总的百分比。
③ “Z-检验”选项组。该选项组用于检验表中每列的比例是否相等,可设置输出拜弗伦尼校正后的检验显著性。
④ “残差”选项组。该选项组用于对残差进行设置,包括3个复选框:“未标准化”表示输出的残差没有经过标准化处理,为原始残差;“标准化”表示输出的残差是经过标准化处理后的残差,即原始残差除以标准差后的残差;“调整后标准化”表示输出的是经过标准误差调整之后的残差。
⑤ “非整数权重”选项组。该选项组用于对加权处理的非整数频数进行取整的设置,有5种方法:
- 单元格计数四舍五入,表示对加权处理后的频数进行四舍五入取整。
- 个案权重四舍五入,表示对加权处理前的频数进行四舍五入取整。
- 截断单元格计数,表示对加权处理后的频数进行截断舍位取整。
- 截断个案权重,表示对加权处理前的频数进行截断舍位取整。
- 不调整,表示不对频数做任何调整。
“格式”设置
单击右侧的“格式”按钮,弹出如图3-36所示的“交叉表:表格式”对话框。该对话框用于设置输出结果的显示顺序。
4)分析结果输出
设置完毕后,单击“确定”按钮,就可以在SPSS Statistics查看器窗口得到交叉表格分析的结果。
图3-36 “交叉表:表格式”对话框
3.4.3 实验操作
下面将以数据文件“3-4”为例,说明交叉表格分析的具体操作过程。
1.实验数据描述
数据文件“3-4”来源于山东人民出版社出版的《常用统计分析方法》。调研人员为了调查男性和女性购车者在购车方面的观点,调查了一百名购车人,分析性别对安全措施的偏好是否有联系。其中,数据文件提供的安全措施有“ABS刹车”“改良悬架”“气袋”“自动门锁”和“电路控制”。原始Excel数据文件如图3-37所示。
在SPSS的变量视图中,建立“安全措施”与“性别”变量,分别表示购车者最注重的安全措施和购车者的性别,如图3-38所示。
图3-37 “3-4”原始数据文件
图3-38 “3-4”数据文件的变量视图
在SPSS活动数据文件中的数据视图中,把相关数据输入到各个变量。其中,在“安全措施”变量中将“ABS刹车”“改良悬架”“气袋”“自动门锁”和“电路控制”分别赋值为“1”“2”“3”“4”和“5”;在“性别”变量中将“男”和“女”分别赋值为“1”和“0”。输入完毕后的部分数据如图3-39所示。
2.实验操作步骤
Step01 打开“3-4”数据文件,输入SPSS Statistics数据编辑器窗口,在菜单栏中选择“分析”|“描述统计”|“交叉表”命令,打开“交叉表”对话框。
Step02 将“性别”变量选入“行”列表框,将“安全措施”选入“列”列表框。
图3-39 “3-4”数据文件的数据视图
Step03 单击“精确”按钮,在弹出的“精确检验”对话框中选中“仅渐进法”单选按钮;单击“统计”按钮,在弹出的“交叉表:统计”对话框中选中“卡方”复选框;单击“单元格”按钮,在弹出的“交叉表:单元格显示”对话框中选中“实测”复选框和“单元格计数四舍五入”单选按钮;单击“格式”按钮,在弹出的“交叉表:表格式”对话框中选中“升序”单选按钮。
Step04 在“交叉表”对话框中选中“显示簇状条形图”复选框,然后单击“确定”按钮即可输出交叉表格分析的结果。
3.实验结果及分析
SPSS Statistics查看器窗口的输出结果如图3-40~图3-43所示。
图3-40给出了交叉表格分析中的变量样本数据的有效个数和百分比、缺失个数和百分比及合计个数和百分比。通过“个案处理摘要”可以看出本实验中无数据缺失。
图3-40 个案处理摘要
图3-41给出了性别对安全措施的二维交叉表格,每个单元格中都给出了每种组合的实际频数,即对原始数据的表示。通过“性别*安全措施交叉表”可以看出样本数据中女性有5人选择了ABS刹车,男性有15人选择了ABS刹车,总共有20人选择了ABS刹车。
图3-41 性别*安全措施交叉表
图3-42给出了对行变量和列变量是否独立的卡方检验。对于本实验而言,卡方检验的原假设是:不同性别对选择安全措施无显著影响。“值”表示检验统计量的值,“自由度”表示检验的自由度,“渐进显著性(双侧)”表示双侧检验的显著水平。从“卡方检验表”可以看出,皮尔逊卡方检验、似然比检验、线性和线性组合检验都显示为0.001,显然拒绝原假设,即认为性别对选择安全措施有显著的影响,女性和男性在选择安全措施方面显著不同。
图3-43给出了按性别分类的频数分布条形图,条形图中给出了相应性别选择不同安全措施的频数。通过“条形图”可以看出不同的性别对安全措施的选择显著不同,如女性选择最多的安全措施是自动门锁,而男性选择自动门锁的人数则最少。
图3-42 卡方检验
图3-43 条形图
3.5 比率分析
比率分析,又称为比率统计量过程,它提供了一个描述两个数值变量间比率的摘要统计量的综合列表。
3.5.1 比率分析简介
该分析不仅可以提供中位数、均值、加权均值、范围、最小和最大值等基本统计指标,还可以提供离差系数(COD),以均值为中心的变异系数,价格相关微分(PRD),标准差,平均绝对偏差(AAD),对用户指定的范围或中位数比率中的百分比所计算的集中指数等。如果对某城市不同地段房产的估价和实际售价之间的差异感兴趣,就可以利用SPSS 24.0提供的比率统计量进行分析。
3.5.2 比率分析的SPSS操作
打开相应的数据文件或者建立一个数据文件后,可以在SPSS Statistics数据编辑器窗口中进行比率分析。
1)在菜单栏中选择“分析”|“描述统计”|“比率”命令,打开图3-44所示的“比率统计”对话框。
2)选择变量。
对话框右侧有3个文本框。
图3-44 “比率统计”对话框
- 分子:该文本框中的变量为比率分析中需要计算比率统计量的分子部分,分子变量的度量标准一般为度量变量(刻度变量),且必须取正值。
- 分母:该文本框中的变量为比率分析中需要计算比率统计量的分母部分,分母变量的度量标准也是度量变量(或者说刻度变量),且必须取正值。
- 组变量:该文本框中的变量为比率分析中进行分组的变量,一般是名义或序数度量,使用数值代码或字符串以对分组变量进行编码。
从源变量列表框中选择相应的“分子”“分母”及“组变量”,以图3-44中的变量为例,如图3-45所示。
3)进行相应的设置。
“统计”设置
单击右下角的“统计”按钮,弹出如图3-46所示的“比率统计:统计”对话框。
图3-45 “比率统计”对话框
图3-46 “比率统计:统计”对话框
“比率统计:统计”对话框主要用于设置需要输出的统计量,包括3个选项组。
① “集中趋势”选项组。该选项组用于描述比率分布的集中趋势:
- 中位数,表示小于该值的比率数与大于该值的比率数相等;
- 平均值,表示比率的总和除以比率的总数所得到的结果;
- 加权平均值,表示分子的均值除以分母的均值所得到的结果,也是比率按分母加权之后的均值;
- 置信区间,表示用于显示均值、中位数和加权均值的置信区间,取值范围是0~100。
② “离散”选项组。该选项组中的统计量主要用于测量观察值中的变差量或分散量,包括9个统计量:
- AAD,即平均绝对偏差,表示中位数比率的绝对离差求和并用值除以比率总数所得的值;
- COD,即离差系数,将平均绝对偏差表示为中位数的百分比的值;
- PRD,即价格相关微分,也称为回归指数,表示均值除以加权均值所得到的值;
- 中位数居中COV,即中位数居中的方差系数,将与中位数偏差的均方根表示为中位数百分比的值;
- 平均值居中COV,即均值居中的方差系数,将标准差表示为均值百分比的值;
- 标准差,表示比率与比率均值间偏差的平方之和,再除以比率总数减一,取正的平方根所得到的值;
- 范围,表示数据中最大的比率减去最小的比率所得的值;
- 最小值,即最小的比率;
- 最大值,即最大的比率。
③ “集中指标”选项组。该选项组用于度量落在某个区间中的比率的百分比,包括两个文本框:
- 低比例,表示指定度量区间的最低比率值,一般指定小于1。
- 高比例,表示指定度量区间的最高比率值,一般指定大于1。
如果设置了低比例和高比例的值,再单击“添加”按钮,则将计算这一对集中指数。
④ “中位数百分比之内”选项组。该选项组通过指定中位数的百分比而隐式定义区间大小,取值范围为0~100,计算区间下界为(1-0.01*值)*中位数,上界为(1+0.01*值)*中位数。
按组变量排序
选中该复选框,表示输出结果将按照组变量的顺序排序。“升序”表示按组变量升序排序;“降序”表示按组变量降序排序。
显示结果
选中该复选框,表示仅在SPSS Statistics查看器窗口得到比率分析的结果。“将结果保存到外部文件”复选框,表示可以将比率分析的结果以其他文件形式保存,可以单击该复选框下方的“文件”按钮进行保存,如图3-47所示。
4)分析结果输出
设置完毕后,单击“确定”按钮,即可在SPSS Statistics查看器窗口得到比率分析的结果。
图3-47 将分析结果保存到外部文件
3.5.3 实验操作
下面将以“3-5”数据文件为例,说明比率分析的具体操作过程并对结果进行说明解释。
1.实验数据描述
“3-5”数据文件来源于SPSS 24.0自带的数据文件property_assess.sav,该假设数据文件涉及某县资产评估员资产价值评估方面的记录,下面将利用比率分析来评估该县5个地点相比上次资产评估后资产价值的变化。个案对应过去一年中县里所出售的资产。数据文件中的每个个案记录资产所在的镇、最后评估资产的评估员、该次评估距今的时间、当时的估价及资产的出售价格。原始Excel数据文件如图3-48所示。
图3-48 “3-5”数据文件原始数据
在SPSS变量视图中建立变量“propid”“town”“assessor”“saleval”“lastval”“time”,分别表示记录的资产、资产所在的镇、最后评估资产的评估员、当时的估价及资产的出售价格、该次评估距今的时间,如图3-49所示。
图3-49 “3-5”数据文件的变量视图
然后在SPSS活动数据文件的数据视图中,把搜集的数据输入到各个变量中,输入完毕后部分数据如图3-50所示。
图3-50 “3-5”数据文件的数据视图
2.实验操作步骤
具体操作步骤如下。
Step01 打开“3-5”数据文件,输入SPSS Statistics数据编辑器窗口,在菜单栏中选择“分析”|“描述统计”|“比率”命令,打开图“比率统计”对话框。然后将lastval选入“分子”,将saleval选入“分母”,将“town”选入“组变量”。
Step02 单击“统计”按钮,在弹出的“比率统计:统计”对话框中选中“集中趋势”选项组的“平均值”复选框;选中“离散”选项组的PRD和“平均值居中COV”复选框;在“集中指标”选项组的“低比例”文本框中输入0.8,在“高比例”文本框中输入1.2,并单击“添加”按钮,最后单击“继续”按钮,保存设置结果。
Step03 单击“确定”按钮,执行比率分析。
3.实验结果及分析
单击“确定”按钮,SPSS Statistics查看器窗口的输出结果如图3-51和图3-52所示。
图3-51 个案处理摘要
图3-52 lastval/saleval的比率统计量
图3-51给出了“3-5”数据文件的个案处理摘要,从中可以看出该县5个地点资产的数目和相应的百分比情况。
图3-52给出了lastval/saleval的各个比率统计量数值,从中可以得到每个地点资产价值上次评估值与售价之间比率的均值、价格相关微分、均值居中的方差系数和百分比介于0.8和1.2之间的集中系数。具体而言,可以发现每个地点的比率均值都小于1,可见售价都小于资产价值的上次评估价值;价格相关微分都略大于1,表示资产价值的比率均值与比率权重均值相差不大;南部的均值居中方差系数最大,表示南部的资产价格评估值与售价之间的比率变动最大;北部的集中系数最大,说明北部的资产评估值与售价比率最为集中。
3.6 上机题
3.1 某劳动人事机构统计了某地成年人体重的抽样调查数据,其中“性别”中“0”和“1”分别表示“女生”和“男生”。部分相关数据如下表所示。
(1)试给出体重的均值、标准差、四分位点。
(2)统计并绘制频数分布直方图。
3.2 现有我国31个省、市、自治区的GDP的统计数据。下表列出了部分数据。
试给出GDP的平均值、中位数、标准差、偏态和峰度。
3.3 为分析学生理科学习的情况,调查者观察了两个班级学生的数学和物理成绩。试先对学生的成绩按照五级制划分等级并做出等级的交叉分析表,分析数学和物理成绩之间是否存在关联。
(1)试用SPSS对学生的成绩按照五级制划分等级。
(2)试做出等级的交叉分析表分析数学和物理成绩之间是否存在关联。
3.4 某地对小学生的身体发育状况进行了抽样调查,得到了106名小学生的肺活量数据。部分相关数据如下表所示。
试采用探索性分析方法,分析小学生的肺活量是否呈正态分布。