
3.1 探索性数据分析
3.1.1 基本理论讲解
探索性数据分析(Exploratory Data Analysis,简称EDA),由美国著名统计学家约翰·图基(John Tukey)于1977年提出并命名。EDA是指对已有的数据在尽量少的先验假定下进行探索,通过作图、制表、函数拟合、计算统计特征量等手段探索数据的内在结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。
探索性数据分析角度
● 检验每个单变量的统计量。
● 检验所有类型变量的分布及连续性变量的正态性。
● 计算顺序变量和连续性变量的相关系数。
● 检测异常值。
● 借助散点图探索变量之间的非线性关系。
● 检查每个变量的缺失值及缺失值的简单替换或删除后所引起的偏差。
● 检验来自同一个总体的不同样本假设。
● 检验变量的交叉分布表。
● 使用多元方法如因子分析、主成分分析等探测内部的结构。
3.1.2 EG菜单解决方案
CREDITCARD_RAW为信用卡客户相关的数据集,其中包含了客户信息(如性别、婚姻状态、工作等),账户信息(存款、贷款、利率等),以及客户的状态是好客户还是差客户(1或0),我们的目的是在做数据清理和进一步分析之前,先整体了解一下数据。
Step1打开数据探索,选择“文件→打开→数据探索”命令,如图3-1所示。选中BANKDATA数据库下的CREDITCARD_RAW。

图3-1
也可以在左下方依次选择“服务器列表→服务器→本地→逻辑库→BANKDATA→CREDITCARD_RAW”,右击选择“探索”按钮,如图3-2所示。

图3-2
Step2界面介绍。数据界面处于左侧,数据探索面板处于右侧,下面我们逐步设置相关参数,如图3-3所示。

图3-3
Step3设置数据视图。单击数据探索面板的“数据视图列表”按钮,在“选定列”区域中,单击“编辑”,出现如图3-4所示的对话框,从可用的列表中选择一个或多个列,然后单击
按钮。本例中我们选择除id变量之外的所有变量。也可以通过搜索列名的形式选择特定列。“仅选择非重复行”复选框表示要删除所有重复的行且仅保留非重复行,本例不作选择。设置完毕之后单击“添加至等待更新”按钮。列选择将添加至“数据探索”面板中挂起的更新列表,暂不执行,待所有设置完成之后可统一设置执行。

图3-4
在“过滤条件”对话框中,单击“编辑”按钮,在选择列框选中“good_bad”,在条件框依次单击“选择值→非重复值→选中‘bad’复选框→应用选择”,如图3-5所示。关于查询生成器的使用,我们会在后续的章节深入讲解,本例暂不介绍。单击“添加至等待更新”按钮。

图3-5
本例对“排序顺序”不作设置,使用软件的默认设置,具体设置方法可参考后续章节。
数据视图列表完成后,会看到在数据探索面板的上方出现了等待更新的3个任务。单击“应用更新”按钮,数据集初步完成了筛选,如图3-6所示。

图3-6
Step4设置快速统计选项。单击数据探索面板上方的按钮,可以看到,刚才我们选中的变量被分为字符型和数值型分列在此,如图3-7所示。
要显示单列的“快速统计”,请单击相应列旁的按钮。选定列的图和统计量随即显示在一个单独的窗口中。要查看所有列的“快速统计”,请单击“点击以运行全部统计量”。本例分别单击数值变量为duration(如图3-8所示),字符变量为purpose后方的
按钮,运行结果如图3-9和图3-10所示。

图3-7

图3-8

图3-9

图3-10
单击右上方的按钮,出现如图3-11所示对话框,数据被分为四种格式:字符、数值、日期/时间、货币。可以根据需要自由设置统计量,关于统计量的定义可以参看统计基础部分。

图3-11
Step5“数据视图列表”和“快速统计”设置选项,单击数据探索面板右上方的按钮。可以进行自动生成快速统计、自动获取列值、清除日志等进行相关的设置,本例不作修改。
通过上述的设置,我们在拿到一个数据集后快速地了解数据的各项特征,为后续的数据清理和分析做好准备。
3.1.3 SPSS菜单解决方案
SPSS共有三个菜单命令可以实现,分别是探索(Explore)、频数(Frequencies)、描述(Descriptives)。
探索(Explore)
探索主要可以实现三项功能:
● 识别数据的分布形式,绘制箱型图和茎叶图,反应数据的分布形式,有助于判断数据中是否包含异常值、影响点和错误数据。
● 正态性检验。
● 方差齐性检验。用Levene检验比较各组数据的方差是否相等,以判定数据的离散程度是否存在差异,如进行独立样本T检验,就需要事先检验方差是否相等,若不相等,则需要通过对数据进行转换使其方差基本相同。Levene进行方差齐性检验时,不强求数据必须服从正态分布。
Step1依次选择“分析→描述统计→探索”命令,如图3-12所示。

图3-12
Step2打开“探索”对话框,如图3-13所示。

图3-13
● “因变量列表(Dependent List)”:因变量是用户所研究的目标变量。
● “因子列表(Factor List)”是指影响因变量的因素,可以为分类变量或者是数值变量。若选择多个因子则会产生检查组合,如X1变量有3种取值,X2变量有2种取值,则产生6个组合(2×3)。
● “标注个案(Label Case By)”是区分每个观测值的。
● “输出”部分分为可以选择同时输出统计量(Statistics)和图,也可以输出其中之一。若选择“统计量”,则只激活“统计量”按钮。
本例中将amount加入到因变量列表中,将good_bad加入到因子列表,将id加入到标注个案。选中输出的“两者都”单选框。
Step3单击“统计量(Statistics)”按钮,打开“探索:统计”对话框,如图3-14所示。

图3-14
● “描述性”:指生成因变量列表中的指定变量的描述性统计量,包括平均值、中位数、5%的截尾平均值、方差、标准差、最大值、最小值、组距、四分位数、峰度、偏度、置信区间等。
● “M估计量(M-estimators)”:计算因变量列表变量集中趋势的稳健估计量,M估计在计算时对所有观测赋予权重,随观测量距分布中心的远近而变化,通过给远离中心的数据赋予较小的权重来减少异常值的影响。
SPSS中的M估计量有4种,它们分别是Huber、Andrews、Hampel和Tukey所提出的,实际上就是所用的函数不同。一般而言,Huber适用于数据接近正态分布的情况,另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远,则数据中可能存在异常值。此时,应该用M估计量替代平均数以反映集中趋势。
● “界外值(Outlier)”输出变量数据的前5个最大值和后5个最小值。
● “百分位数”:变量数据的百分位数。将计算并显示指定百分位数,包括5%,10%,25%,50%,75%,90%和95%。
为了比较结果,我们将所有复选框选中,置信区间采用默认值95%。
Step4单击“绘制(Plots)”按钮,打开“探索:图”对话框,如图3-15所示。
● 箱图(Boxplots)
“按因子水平分组(factor levels toghter)”:对每个因变量创建一个箱图,每个箱图内根据分组变量的不同水平的取值创建箱型单元。
“不分组(dependents together)”:选择此项,将为每个分组变量水平创建一个箱图,在不同的箱图内用不同的颜色区分不同因变量所对应的箱型图。
“无”:不绘制箱图。

图3-15
● “描述性”:生成茎叶图和直方图。
● “带检验的正态图(Normal Plots With Test)”:选择此项将进行shapiro-wilk和kolmogorov-smirnov正态性检验,并生成正态Q-Q概率图和无趋势正态Q-Q概率图。
● “伸展与级别Levene检验(Spread Vs Level With Levene Test)”:对所有的伸展与级别图进行方差齐性检验和数据转换,输出回归直线斜率,方差齐性Levene检验。该部分主要有四种选项,无、幂估计、已转换、未转换。
“无”:为不输出,不进行方差齐性检验。
“幂估计”:对每一个变量数据产生一个中位数的自然对数和四分位数的自然对数的散点图,对各变量的方差转化为同方差所需要的幂的估计。
“已转换”:对因变量进行数据转换,方法有自然对数变换、1/平方根变换、倒数变换、平方根变换、立方变换。可以通过下拉框进行选择。
“未转换”:不对原始数据进行变换。
本例中,对于箱图我们选择按照因子水平分组,对于描述性,选择茎叶图和直方图,选择带检验的正态图,对伸展和级别的Levene检验选择“未转换”。
Step5单击“选项”(Options)按钮,打开“探索:选项”对话框。
● “按列表排除个案(Exclude Cases Listwise)”:只要任何一个变量含有缺失值,就剔除此个案。
● “按对排除个案(Exclude Cases Pairwise)”:仅仅剔除所用到的变量的缺失值。
● “报告值(Report Values)”:变量中存在缺失值单独作为一个类别进行统计,输出频数表的同时输出缺失值。
Step6单击“确定”按钮,输出结果如下所示。
(1)个案处理摘要。参与分析的数据如图3-16所示,可以看出bad类amount有3个缺失值,good类amount有5个缺失类。

图3-16
(2)统计量。如图3-17所示,按照good_bad的变量分为两个类别分别进行计算。

图3-17
M估计量是集中趋势的稳健估计量,共列出了四种稳健估计量,同时列明了加权常量,如图3-18所示。

图3-18
百分位数分别给出了加权平均和Turkey法计算百分位数的结果,如图3-19所示。

图3-19
直方图和茎叶图,可以了解数据的基本分布形态,如图3-20和图3-21所示。

图3-20

图3-21
(3)正态性检验
图3-22是对于bad类客户标准正态性检验,如果数据服从正态分布则散点的分布接近于一条直线,从图3-23中可以看出,amount客户不服从正态分布。

图3-22

图3-23
图3-24给出了kolmogorov-smimov法(D检验)和shapiro_wilk法(W检验)两种正态性检验的结果,从结果可以看出P值都较小,不支持数据服从正态分布的结论。
此处两种的结果是一致的,但有时两者之间的结果会出现差异,即一个认为是正态分布一个不认为是正态分布,我们可以根据样本量进行选择。
在SAS中,当样本含量n<=2000时,以W检验为准,否则以D检验为准。在SPSS中,如果指定的非整数权重,则在加权样本大小位于3≈50之间时,或者对于无权重或者整数权重,在加权样本大小位于3≈5000之间时,计算W检验,其他情况下计算D检验。

图3-24
(4)方差齐性检验,P值检验结果显著,不能接受原假设,即认为方差不相等,如图3-25和图3-26所示。

图3-25

图3-26
(5)极端值和箱图,对于每个类别输出了5个最大值和5个最小值,通过箱图可以看出数据异常值较多,波动范围较大,如图3-27和图3-28所示。

图3-27

图3-28
频数(Frequencies)分布分析
主要通过频数分布表、条图和直方图,以及集中趋势和离散趋势等各种统计量,描述数据的分布特征。
依次打开“分析→描述统计→频率”命令,弹出“频率”主对话框,如图3-29所示。

图3-29
可以通过“统计量(Statistics)”按钮,设置百分位数、集中趋势、离散趋势、分布等。通过图表选择生成的图表类型。
描述(Descriptiones)统计分析
主要用于计算描述集中趋势和离散趋势的各种统计量,还可以对数据做标准化变换。
依次打开,“分析→描述统计→描述”命令,弹出“描述性”对话框,如图3-30所示。

图3-30
SPSS菜单的频率、描述与搜索功能的异同如下。
