3.11.3 自动重新编码
自动重新编码是将字符型变量或数值型变量转换成连续的整数。自动编码在一些统计分析过程很有必要。当类别代码不连续时,对许多过程来说,生成的空单元格将降低性能并增加内存要求;某些过程不能使用字符串变量,某些过程要求因子级别为连续的整数值。在自动重新编码时,SPSS遵循如下规则。
●SPSS通过分组变量重新产生一个新的变量,新变量的值按原变量的顺序重新赋予从1开始的连续整数值。
●自动重新编码创建的新变量保留了旧变量中任何已定义的变量标签和值标签。若分组变量没有变量值标签,新变量则将原变量的值作为新变量的变量值标签。一个表显示了旧值、新值及值标签。
●字符串值将按字母顺序重新编码,其中大写字母将排在相应的小写字母之前。
●缺失值被重新编码为高于任何非缺失值的缺失值,并保留它们的原有顺序。例如,如果原变量有 10 个非缺失值,最低的缺失值将被重新编码为11,值11将作为新变量的缺失值。
1.参数设置
打开数据文件,选择“转换”→“自动重新编码”,弹出“自动重新编码”对话框,如图3-73所示,其中各项的含义如下。
图3-73 “自动重新编码”对话框
●变量→新名称:用于选入需要进行编号的变量。当有变量选入该列表中时,激活下方的“新名称”输入框,此时则可在输入框中输入新名称,同时,单击“添加新名称”按钮完成新名称的添加。
●重新编码起点:用于指定重新编码的顺序,有最低值和最大值两个选项。
●对所有变量使用同一种重新编码方案:将当前被编码的方案应用到所有的选择变量中。
●将空字符串值视为用户缺失值:选中此项,在编码时空字符串将不被编码;不选此项,空字符串将被正常编码。
●模板:有两个选项,分别为“应用文件中的模板”和“将模板另存为”。前者是利用模板对当前选择的变量进行自动重新编码,后者是将当前对选择变量的自动重新编码方案保存到外部模板文件中。
2.自动重新编码的SPSS实现
实例十四:“data03-12.sav”数据文件中包括4个变量,这4个变量分别为数值型、数值型、字符串型、字符串型,如图3-74所示。现要求对4个变量都进行自动重新编码,均将重新编码的起点设为最低值。
(1)打开“data03-12.sav”数据文件,选择“转换”→“自动重新编码”,弹出如图3-73所示的“自动重新编码”对话框。
(2)选中左边变量列表中的“变量1”,单击按钮,将其选入“变量->新名称”列表中,显示为,提示用户输入新变量名称。此时,在下方的“新名称”后面的方框中输入新名称“新变量1”,激活并“添加新名称”按钮,添加完后显示为。同时,在下方的“重新编码起点”选项中选中“最小值”。
(3)重复第二步的操作,分别将“变量2”“变量3”“变量4”选入“变量->新名称”列表中,并分别命名为“新变量2”“新变量3”“新变量4”。
(4)勾选“将空字符串值视为用户缺失值”选项。
(5)完成所有设置后,单击“确定”按钮执行命令。
图3-74 “data03-12.sav”数据
3.自动重新编码的结果分析
图3-75是自动重新编码的部分结果,分别观察表格后四列,即4个变量自动重新编码后的序号,发现如下规律:生成的新变量是连续变量;选中“将空字符串值视为用户缺失值”选项后,空字符串将不被编码;小写字母优先于大写字母;中文拼音字符型变量按照各字符的首写字母的顺序重新编码。
图3-75 “自动重新编码”的结果