第4章 SPSS简介与数据库构建
4.1 SPSS简介
SPSS是全球领先的统计分析与数据挖掘产品,是世界上应用最广泛的专业统计和数据模型软件之一,全称为Statistical Product and Service Solutions,是由美国斯坦福大学的三位研究生于1968年开发的;而SAS成立于1976年;Stata成立于1985年;R软件于1995年才开始研发,R语言的前身S语言研发于1989年;Matlab创立于1982年;Eviews前身是1981年第1版的Micro TSP;Minitab INC成立于1983年;微软公司创立于1975年。可见SPSS是最早的一款专业的统计分析软件。2009年SPSS公司被IBM收购,自SPSS 19.0开始,产品名称更名为“IBM-SPSS”。截至2018年5月本书完稿之时,SPSS已经发布25.0版本。
“易学易用易普及”已成为SPSS软件最大的竞争优势之一,也是广大数据分析人员对其偏爱有加的主要原因;而大量成熟的统计分析方法、完善的数据定义操作管理、开放的数据接口以及灵活的统计表格和统计图形,更是SPSS长盛不衰的重要法宝。SPSS在全球100多个国家和地区有分支机构或合作伙伴,约有28万家产品用户,分布于金融保险证券、制造业、市场调研、政府税务、教育科研、医疗卫生、化工行业、零售业、电子商务等多个领域和行业,全球500强中约有80%的公司使用SPSS;而在市场研究和市场调查领域有超过80%的市场占有率,SPSS是世界上应用最广泛的专业统计软件之一。
4.2 SPSS 24.0安装
登录IBM SPSS主页(https://www.ibm.com/analytics/cn/zh/technology/spss/)可以获取下载试用版本,也可以通过百度搜索“SPSS 24.0”获取下载链接。本文主要讲解Windows试用版如何安装(MAC版和Linux版安装类似,不再讲解),试用版除了使用期限有限制外,功能与正式版一样。
4.2.1 确定计算机系统
SPSS 24.0分为32位系统和64位系统版本,你安装前首先得知道自己计算机为何种系统。你可以在计算机桌面找到“计算机”图标,然后右键→属性,即可查看。
注意:64位的计算机系统可以安装32位的软件,32位系统不可以安装64位软件,但最好版本一致,使用才会更加顺畅。
4.2.2 安装步骤
点击SPSS 24.0安装图标,安装过程的所有界面如图4-1~图4-12所示,按图操作即可,没有特别之处。
图4-1 准备安装
图4-2 空间计算
图4-3 欢迎向导
图4-4 是否屏幕阅读
图4-5 是否加载Python
图4-6 是否接受许可
图4-7 是否接受Python协议
图4-8 开始复制文件
图4-9 安装确定
图4-10 安装中
图4-11 完成安装
图4-12 输入邮箱
单击“完成”按钮,SPSS 24.0将启动运行,如果未能启动,可以在程序栏中找到IBM SPSS Statistics 24.0程序,单击运行,首次运行会弹出图4-12,在电子邮件框中填入正确的邮箱,即可以获取试用权限进行试用。
填入电子邮件后,弹出SPSS数据视图,如图4-13所示,至此,SPSS 24.0试用版已经安装完毕,可以开始SPSS数据分析之旅啦!如果你安装出现问题,请百度搜索“网易云课堂”,在云课堂中搜索“松哥统计”,可以找到松哥发布的SPSS快速入门的免费视频教程进行学习。
图4-13 SPSS界面
4.3 SPSS启动与退出
在Windows桌面,单击“开始”—“所有程序”—“IBM SPSS”—“IBM SPSS Statistics 24.0”命令,即开始运行SPSS 24.0。当软件安装结束后,你也可以在桌面创建SPSS 24.0的快捷方式。SPSS有多种退出方式:单击SPSS窗口右上角的“×”图标;选择并单击菜单中的“Exit”命令;双击SPSS窗口左上角的窗口控制菜单图标。这些都比较简单,无须细讲。
4.4 SPSS 24.0窗口简介
SPSS主要窗口包括:数据视图(data view)、变量视图(variable view)、结果输出窗口(output view)、图表编辑窗口(chart editor)、语法编辑器窗口(syntax editor)和脚本编辑窗口(script view);其中最常用的是数据视图、变量视图,其他窗口在需要用到时再讲解。知识的学习存在二八定律,我们初学者一定要将有限的精力放在最常用、最重要的知识点上哦!
4.4.1 数据编辑窗口
当我们启动SPSS后,出现的第一个窗口即为数据编辑窗口,如图4-14所示。数据编辑窗口是用户进行数据处理与分析的主要窗口界面,用户可在此窗口进行数据输入、观察、编辑和统计分析等操作,是SPSS最主要的操作窗口界面。
图4-14 SPSS 24.0数据编辑窗口
1. “标题栏”:箭头1所指区域,显示窗口名称和编辑的数据文件名。如果当前数据编辑器中是一个新建的文件,其显示为“未标题1【数据集0】—IBM SPSS Statistics数据编辑器”。
2. “菜单栏”:箭头2所指区域,从左至右包括“File”“Edit”“View”“Data”“Transform”“Analyze”“Direct Marketing”“Graphs”“Utilities”“Add-ons”“Windw”和“Help”菜单。
3. “常用工具栏”:箭头3所指区域,列出了数据编辑所使用的常用工具。SPSS数据窗口最常用的工具见图4-15。
图4-15 工具栏常用工具
4. “数据和单元格信息显示栏”:箭头4所指区域,其中灰色区域显示单元格的位置;空白区域为数据编辑区,显示当前选中的单元格的内容,用户可在该区域输入或修改相应的内容。
5. “数据编辑显示区”:箭头5所在的中部网格区,该区最左边列显示单元序列号,最上边一行显示变量名称。选中的单元格呈黄色显示,其内容将出现在数据和单元格信息显示栏中,在此输入或修改单元格内容。
6. “视图转换栏”:箭头6所指区域,用于进行变量和数据视图的切换,用户只需单击相应的标签便可以完成变量与数据视图的切换。
7. “系统状态栏”:箭头7所指区域,显示当前的系统操作,用户可通过该栏了解SPSS当前的工作状态。对于初学者,系统状态栏务必保留,因为该栏可以帮助用户了解自己对数据进行了哪些选择性的操作。
4.4.2 变量编辑窗口
在数据编辑窗口的左下角,单击“变量视图”按钮,即可弹出“变量编辑”窗口,如图4-16所示。在该窗口可以命名变量的名称、类型、宽度、小数位、变量标签、变量值标签、缺失值、列的宽度、对齐方式、度量标准及对角色进行设置,此处不赘,后面数据库构建章节逐步进行详细介绍。
图4-16 变量编辑窗口
4.4.3 结果输出窗口
结果输出窗口用于输出统计分析的结果或绘制的相关图表,如图4-17所示。
图4-17 SPSS的结果输出窗口
结果输出窗口左边是导航窗口(箭头1所示),显示输出结果的目录,单击目录前面的加、减号可显示或隐藏相关内容;右边是显示窗口(箭头2所示),显示所选内容的细节。
4.5 SPSS数据库构建
SPSS数据库构建有两种方法:一为间接法,即利用SPSS去调用其他形式的数据库,实施“拿来主义”,如dbf、txt、xls等,大多数研究者是将研究数据放入Excel中存储,因此调用Excel数据为较常用的间接法数据库构建;二为直接法,即利用SPSS直接构建数据库,本法相对费事。虽然间接法更为常用,但直接法是SPSS初学者必须掌握的方法,因为在利用间接法建库时,有些软件默认参数未必符合分析目的,需要进行调整,不会直接法,将不知如何调整。就像你给你梦中情人写情书,不会写,抄了同学的情书送过去了,送完才发现——署名也抄成同学的了。
SPSS数据格式为经典的行列式:每行代表一个记录、个案,每列代表一个变量。格式参考表4-1。很多人习惯用Excel存储数据,切记,当用SPSS调用时,Excel数据也应该录入为如下格式,否则SPSS无法准确识别。
表4-1 SPSS数据录入格式要求
4.5.1 间接法数据库构建
图4-18所示为一小型数据,存储于Excel文件中,现在利用SPSS直接调用,构建SPSS数据库,操作如下。
图4-18 四名同学的一般资料数据
操作步骤
1. 双击SPSS图标:打开SPSS;如果SPSS已经打开,直接按照第二步操作。
2. 选择菜单:文件—打开—数据,弹出图4-19,将文件类型框选为“所有文件”,然后单击“SPSS数据库构建”,单击“打开”按钮。
图4-19 SPSS打开数据窗口
3. 弹出询问框:自SPSS 24.0开始,读取Excel数据为可视化读取,用户可以可视化观察数据读取的情况,如图4-20所示。此处重点关注第一个复选框,询问是否将第一行当作变量名录入;待录入资料的第一行就是变量名,故直接点击“确定”按钮。用户可以尝试将复选框中的“√”取消,你会发现可视化读取窗口中的变量名由V1、V2等代替。另外,有时我们将数据放在Excel的其他工作表,此时将“工作表”框下拉菜单打开,选择相应的工作表即可。
图4-20 询问窗口
4. 上步确定后,弹出SPSS数据库,如图4-21,一般就可以进行后续数据整理与分析,但有时会需要调整。点击:“文件—保存”,或者直接点击保存按钮,将此数据库进行保存,即利用其他数据库形式构建了SPSS数据库。
图4-21 Excel读取后SPSS数据
4.5.2 直接法数据库构建
直接法数据库构建为初学者必须掌握的数据库构建方法,可以分为两大步——先变量后数据,即先定义数据库中的变量,然后录入相应的数据,有点先买票,然后才能进入电影院就座看电影的意思;以知识结构而言,第一步更为重要。下面仍以图4-18的资料为例进行说明。
操作步骤
1. 双击桌面SPSS图标,打开SPSS。
2. 点击菜单:文件—新建—数据,打开一个新的SPSS数据窗口,点击左下角“变量视图”,转换到“变量”,如图4-22所示。
图4-22 变量视图
(1)每个变量需要设置11项属性,其中“类型”和“测量”相对较为重要,如果设置出错可能会影响后续分析;其他属性设置基本仅与展示方式相关,不会影响分析;变量类型设置与测量尺度设置窗口见图4-23、图4-24。
图4-23 变量类型
图4-24 度量标准
(2)变量类型中初学者只需关注第一个“数字”和倒数第二个“字符串”即可。录入变量值为数值时选择“数字”,录入的变量值为汉字、英语等字符时,选择“字符”。图4-24度量标准有三个选项,分别为“标度”“有序”和“名义”,分别对应于统计学上的数值变量、有序分类变量与无序分类变量,大家要根据专业进行选择。
(3)数值型变量为标准型,系统默认宽度为8位,小数点默认为2位,小数点用圆点。字符型变量(String),其值由字符串组成,系统默认为8,超过8为长字符型变量,不超过8为短字符变量。字符型变量不能参与运算,且大、小写存在区别。注意SPSS 24.0采用unicode模式,每个汉字占位4个字符,大家务必设置足够的宽度,否则无法显示完全。
3. 本例录入第一个变量,在第一行变量名称中录入“姓名”,类型选择“字符串”,“测量”选择“名义”,其他默认。后续的“性别”“血型”因为都是字符型,与“姓名”录入方法类似;“身高”“体重”和“年龄”为数值型变量,输入相应变量名称后,类型选择“数字”,度量标准选择“标度”,其他可以默认。本例变量设置完毕后如图4-25所示。
图4-25 录入后变量属性设置
4. 变量录入完毕后,点击窗口左下角“数据视图”按钮,将每个变量的数据录入相应的位置,完毕后保存数据库,即可完成直接法数据库的构建,最终数据库如图4-26所示。
图4-26 直接法录入数据库
SPSS数据库构建完毕后,根据分析的需要,有时需要对数据库进行整理与清洗,包括排序、选择个案、加权个案、缺失值替换、转置与重新编码等功能,具体统计分析方法请参照本书相关章节的案例操作部分。
4.5.3 数据编辑
数据录入完毕后,可以对数据进行相应的编辑,如修改、删除、复制、粘贴等。此处请大家把SPSS当作Excel,操作与Excel完全一样。下面向大家介绍三右键功能。
1. 列变量右键
当我们选择“体重”变量右键,可以弹出右键菜单,并可以执行相应的操作,大家自己尝试,重点为可以直接对“体重”变量进行“描述统计”(见图4-27)。
图4-27 列变量右键功能
2. 行变量右键
当我们选中某一行,点击右键,也可以进行相应的操作,具体如图4-28所示。
图4-28 行个案右键实现功能
3. 单元格右键
当我们选中某一个具体的单元格,点击右键,弹出图4-29,亦可进行相应的操作。
图4-29 单元格右键实现功能
数据库构建经验小结:
常用是间接,必学是直接;
直接分两步,变量和数据;
变量两注意,类型和度量;
类型看两种,数值和字符;
度量依专业,三种要对应;
方便数据录,数值优字符;
把握上原则,大错躲一边。
SPSS数据库构建有很多需要注意的细节,此处不赘,具体可见松哥公众号(data973)免费的视频教程。
4.6 SPSS分析过程三级窗口
三级窗口演示采用数据库data01.sav,请大家打开相应数据库进行操作。
4.6.1 一级窗口(数据窗口)
一级窗口就是SPSS数据视图窗口,包含着所有的统计分析数据以及各项功能的菜单。如图4-30所示。
图4-30 data01数据展示
4.6.2 二级窗口(功能窗口)
为了实现某项分析功能,则需要调用相应的功能窗口,如想知道男女生的身高有没有差异,进行两独立样本t检验,调用独立样本t检验窗口,如图4-31。
图4-31 二级功能窗口
二级是实现某项统计功能的主要窗口界面,其上包含三个主要部分:一为数据库的变量框(A),框中含有构建数据库中的各种变量名称;二为目前检验变量框(B),用户将本次想进行分析的变量放入;三为参数按钮(C),点开按钮可以对实现t检验这个功能的某些参数进行修改设置。二级窗口是进行SPSS数据分析最重要的窗口哦!
4.6.3 三级窗口(参数窗口)
三级窗口的打开,是借助二级窗口中的参数按钮,如点击图4-31中的“选项”参数按钮,弹出图4-32,可以对置信区间范围及缺失值处理进行设置。三级窗口设置完毕后,点击“继续”,会再次回到二级功能窗口,点击“确定”,此时软件就开始运行了。数据库不大的话,一般1~2秒,运算完毕,然后结果输出窗口自动弹出,展示结果。
图4-32