二 旅游统计数据的输入
利用SPSS输入旅游统计数据,分为两种情形:一是将非电子化的一手数据手工录入SPSS;二是将其他格式的二手电子数据导入SPSS。
(一)一手数据的录入
进入SPSS软件之后,选择“文件(File)——新建(New)——数据(Data)”,可新建一个空的数据文件。在向此文件中录入一手数据时,需要三个步骤:首先要确定变量个数,其次在变量视图中定义变量属性,最后切换到数据视图录入数据。下面以表3—1中的4个问题为例进行讲述,这些问题均来自第二章附表中问卷样例的第一部分,且代表不同的问题类型。
表3—1 一手数据录入样题
1.单选题和填空题的录入
表3—1中题号为2、4的问题为单选题,题号为3的问题为填空题。这3个问题均只需确定一个变量即可。对这3个变量,可在变量视图中定义11个具体属性,其中以下6种属性较为重要。
(1)名称(Name)。该属性用于变量命名,主要原则是便于识记,既可以使用字母、符号和数字的组合,也可以直接使用汉字。可将上述3个变量分别命名为“Q2sex”“Q3age”和“Q4degree”。
在定义变量名称时,还需要注意如下事项:只能以字母、汉字或@开头;不能以句号结尾;不能使用空格和一些特殊符号(如“?”“!”“*”等);不能使用SPSS程序代码中的关键字(如all、and、with、or等);变量名称不能相同(SPSS中不区分大小写,如“Q2sex”与“Q2SEX”为同一变量名称,不能同时使用)。
(2)类型(Type)。该属性用于确定变量值的数据类型,常用的有数字(定量数据)和字符串(定性数据)。输入定量数据时,一般不改变原始数据的类型。输入定性数据时,常常对其进行编码,输入数据的类型会因之改变。上述3个变量均可定义为数字,而变量Q2sex和Q4degree的数据类型也可定义为字符串。
(3)标签(Label)。该属性用于为变量名加注标签,对变量名的含义进行解释说明,既可方便识记,又可便于统计分析过程的操作和统计分析结果的理解。上述3个变量的名字,可分别加上相应的中文标签,如“性别”“年龄”“学历”。如果变量名为中文,一般不用再加标签。
(4)值(Values)。该属性用于给编码之后的变量值设置标签,主要用于定性数据的输入。给变量值赋以不同的标签,对变量值的含义进行注释,不仅可以方便数据的录入,而且可以增强统计分析结果的可读性。
在录入变量Q2sex的数据时,可先将变量值“男”“女”分别编码为1、2(它们既可以是数字,也可以是字符串),再将后者录入。为方便识别,需要在图3—4所示的对话框中设置标签。对话框上部的两个文本框分别为“变量值(Value)”输入框和“标签(Label)”输入框,将“1”和“男”依次输入,单击下方的“添加(Add)”按钮,即可将第一个变量值标签添加到下方的标签列表框中;再以同样的步骤,即可完成第二个标签的设置。可用相似的方法,对变量Q4degree的5个值添加标签。
图3—4 变量值标签对话框
(5)缺失值(Missing)。该属性用于定义变量缺失值的表现形式。在录入问卷数据时,如果出现被调查者对某个问题没有回答的情况,SPSS会使用默认的系统缺失值进行填充。对于定量数据,会使用圆点来表示缺失值;对于定性数据,则直接使用空字符串。而使用图3—5所示的对话框可以自定义缺失值的数据呈现形式。
图3—5 缺失值对话框
该对话框中有3个选项按钮,系统默认的是第一项,即“无缺失值(No missing values)”。第二项为“离散缺失值(Discrete missing values)”,可在下面的文本框内最多输入3个离散型的数字来表示缺失值。第三项为“范围加上一个可选的离散缺失值(Range plus one optional discrete missing value)”,可在下面的文本框内确定一个区间的同时,再指定一个离散值来表示缺失值。
假如变量Q2sex存在缺失值,可使用一个除1、2之外的任意一个离散值来表示缺失值。如果以0来表示缺失值,需要在“离散缺失值”下面的框内输入“0”。
(6)测量尺度(Measure)。该属性用来定义变量的测量尺度。如3个变量Q2sex、Q3age、Q4degree需分别定义为定类(或名义)尺度、定距(或标度)尺度和定序(或有序)尺度。假如在第二步将Q2sex和Q4degree的类型设置为数字,那么将两变量的测量尺度分别设为定类和定序之后,其变量值只能对个体进行分类或排序,不能进行数学运算,因而定性数据的性质并没有发生根本改变。
将各个变量的属性定义完毕之后,可切换到数据视图,按行进行数据的输入。在数据录入过程中,需要时刻注意保存,SPSS数据文件的扩展名为“.sav”。
2.多选题的录入
SPSS的每个单元格中只能录入一个变量值,对于可能出现多个答案的多选题(Multiple Response,又被称为多重响应)来说,仅确定一个变量不能实现数据的完整输入,必须确定多个变量。可使用二分法(Dichotomy)和分类法(Category)两种方法来确定变量的个数。
1)二分法
一个多选题有n个选项,则将该题分解为n个单选题,每个选项对应一个单选题。分解之后的单选题只有两个选项“是”(表示选中,可编码为1)或“否”(表示未选中,可编码为0)。由于每个单选题只确定一个变量,因此这个多选题会确定n个变量。
表3—1中题号为12的问题为多选题,共有6个选项,可将其分解为如表3—2所示的6个单选题,并将相应的6个变量分别命名为“Q12mudi_1”“Q12mudi_2”“Q12mudi_3”“Q12mudi_4”“Q12mudi_5”和“Q12mudi_6”。
表3—2 利用二分法拆分多选题
接下来,在变量视图中定义6个变量的属性。由于6个变量均来自同一个多选题,具有相同的属性,所以可仅定义第一个变量的属性,然后将其复制、粘贴,再对变量名、变量名标签进行修改即可。
将变量属性定义完毕后,切换至数据视图,按照被调查者的答案,依次录入1或0。假设被调查者选择的是选项“(1)欣赏自然风光”和“(3)体验民俗文化”,那么在录入数据时,需要依次录入1、0、1、0、0和0。
2)分类法
如果一个多选题的答案选项过多,那么会在很大程度上增加数据录入的工作量。在此情况下,分类法会更为适用。使用分类法时,首先要确定所有被调查者对该多选题给出的最多答案个数n(≤多选题答案选项个数);然后将该多选题分解为n个单选题,每个单选题的答案选项与原多选题的答案选项相同。由于每个单选题只确定一个变量,因此这个多选题会确定n个变量。
仍以表3—1中题号为12的问题为例,假如被调查者给出的最多答案个数为3个,那么可以将此多选题分解为如表3—3所示的3个单选题,并将相应的3个变量分别命名为“Q12mudi_1”“Q12mudi_2”和“Q12mudi_3”。
表3—3 利用分类法拆分多选题
接下来,与二分法的方法相似,在变量视图中定义3个变量的属性。将变量属性定义完毕后,切换至数据视图,根据被调查者的答案,从1—6中选择数字进行录入。假设被调查者选择的是选项“(1)欣赏自然风光”“(3)体验民俗文化”和“(5)探亲访友”,那么在录入数据时,需要依次录入1、3、5。假如被调查者只选择了(1)和(3),那么需要依次录入1、3,而第三个变量Q12mudi_3可使用系统默认缺失值。此类缺失值的存在不会影响以后的统计分析。
(二)二手数据的导入
1.文本文件的导入
以导入“2014年全国各地星级饭店数量分布情况.txt”文件为例。在导入之前,需事先打开此文件,查看其数据结构。文件显示,第一行是变量名,共有7个变量,自第二行开始为变量值;变量名、变量值之间用制表符隔开。
查看完毕之后,在SPSS中选择“文件(File)——读取文本数据(Read Text Data)”,系统会弹出一个对话框,要求选择需要打开的文件。找到该文本文件之后,单击“打开(Open)”按钮,便进入“文本导入向导(Text Import Wizard)”对话框,该向导共有6个步骤,如图3—6至图3—11所示。
(1)在图3—6所示的对话框中,系统会询问即将打开的文件是否与另一个已预定义格式的文件(文件的扩展名为“.tpf”)具有相同的结构。如果有,选择按钮“是(Yes)”,并找到相应的文件,直接单击“完成(Finish)”按钮,就可完成数据的导入。如果没有,单击按钮“否(No)”,再单击“下一步(Next)”按钮。
图3—6 文本导入向导对话框1
(2)在图3—7所示的对话框中,要求回答两个问题:“变量之间是以特定字符分隔(定界),还是以固定宽度排列?”“文件的开头(即第一行)是否为变量名?”在本例中,应选择“定界(Delimited)”和“是”两个按钮,再单击“下一步”按钮。
图3—7 文本导入向导对话框2
(3)在图3—8所示的对话框中,共有三个问题:“是否从第二行开始读取数据?”“每一行是否代表一个个案(或记录)?”“是否导入全部个案?”一般来说,保持默认的设置即可,然后单击“下一步”按钮。
图3—8 文本导入向导对话框3
(4)在图3—9所示的对话框中,有两个问题:“变量之间使用什么分隔(定界)符?”“文本数据(即定性数据)是否使用了诸如单引号、双引号之类的限定符?”本例中,选择“制表符(Tab)”和“无(None)”两个按钮,再单击“下一步”按钮。
图3—9 文本导入向导对话框4
(5)在图3—10所示的对话框中,要求对导入的各个变量的属性(主要为变量名和变量值的数据类型)进行设置。本例中,保持系统默认的设置即可,然后单击“下一步”按钮。
图3—10 文本导入向导对话框5
(6)在图3—11所示的对话框中,需回答两个问题。第一个问题为:“是否将此文件的格式保存为模板(.tpf文件),以便以后打开其他文本文件时使用?”可选择“是”按钮,并单击“另存为(Save As)”按钮,将其保存。第二个问题为:“是否将本次操作过程粘贴为SPSS语句?”对普通用户来说,一般选择“否”按钮。
图3—11 文本导入向导对话框6
当所有操作步骤完成之后,单击“完成”按钮,SPSS将该文本文件成功导入。
2.Excel文件的导入
以导入“2014年来华旅游人数前10位国家.xlsx”文件为例。在导入SPSS之前,也需事先打开此文件,查看其数据结构。文件显示,该表格共15行、3列,第一行是变量名,共3个变量;自第二行开始为变量值。
文件查看完毕之后,在SPSS中选择“文件(File)——打开(Open)——数据(Data)”,系统会弹出一个对话框,要求选择需要打开的文件。找到该文件后,单击“打开”按钮,便进入Excel文件导入对话框,如图3—12所示。
图3—12 Excel文件导入对话框
对话框首先询问是否从第一行数据中读取变量名,系统默认为勾选状态,本例中保持默认。“工作表(Worksheet)”下拉列表框中,可选择Excel文件中需要导入的表格,本例中只有“sheet1”一个表格。“范围(Range)”框内要求填写表格导入的起止单元格,若不填写,则将表格数据全部导入,本例中保持空白。相关设置完成后,单击“确定(OK)”按钮,该Excel文件即被导入SPSS。