2.6.6 缺失数据的处理
在数据分析的过程中,多种情况会导致缺失值的产生,例如某一年的观测资料丢失,缺失值的产生会给数据分析带来许多问题,这种情况下我们将用到缺失数据处理的功能。SPSS提供了多种手段进行缺失值的替代操作。本节以人均GDP的计算为例讲解缺失值的操作,数据文件中由于某种原因,没有获得1995年的人均GDP数据(GDP单位:亿元,人均GDP单位:元),因此我们需要对缺失值进行合理替代以便进行相应的分析。本例的原始数据文件如图2-62所示。
图2-62 人均GDP数据
缺失值替代的操作步骤如下:
在菜单栏中选择“转换”|“替换缺失值”命令,打开如图2-63所示的“替换缺失值”对话框。
选择要替换缺失值的变量。选中含有缺失值的变量,单击按钮将其选入“新变量”列表框中,系统会自动生成用于替代缺失值的新变量。如果用户希望自定义变量名称,可以在“名称”文本框中输入自定义变量名称,然后单击“变化量”按钮完成设置。本例将“人均GDP”变量选入列表框中,生成后的新变量命名为“人均GDP的缺失值替代”,如图2-64所示。
图2-63 “替换缺失值”对话框
图2-64 选择要替换缺失值的变量
选择缺失值替代的方法。在“方法”下拉列表中选择缺失值替代的相应方法,共有以下几种方法:
序列平均值:系统将使用所有非缺失值的平均数替代缺失值。
临近点的平均值:系统将使用缺失值临近的非缺失值的平均值替代缺失值,用户可以在“附近点的跨度”文本框中定义临近非缺失值的个数。
临近点的中位数:系统将使用缺失值临近的非缺失值的中位数替代缺失值,同样可在“附近点的跨度”文本框中定义临近非缺失值的个数。
线性插值法:系统将使用缺失值相邻两点的中点处的取值替代缺失值。
点处的线性趋势:系统将采取线性拟合的方法确定替代值。
本例选择“序列平均值”选项。
单击“确定”按钮,就可以完成缺失值替代操作。缺失值替代的输出结果如图2-65所示。
图2-65 进行缺失值替代后的数据
由图2-65可以看出,1995年的缺失值已经有替代,保存在新生成的“人均GDP的缺失值替代”变量中。