SPSS 19.0统计分析综合案例详解
上QQ阅读APP看书,第一时间看更新

1.8 聚类分析与判别分析

聚类分析又称群分析,是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。

判别分析是根据描述事物特征的变量值和它的所属类找出判别函数,以此为依据对所研究事物进行所属类判别的方法。其目的是对已知分类的数据建立由数值指标构成的分类规则,然后把这样的分类规则应用到未知分类的样本去分类。

聚类分析和判别分析是研究分类法的两种重要方法。但聚类分析是在未知类别数目的情况下,对样本数据进行分类;而判别分析则是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。

1.8.1 快速聚类

K-Means聚类也称快速聚类,是由MacQueen于1967年提出的,它将数据看成k维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-Means聚类只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。

快速样本聚类过程是为观测个数很多的数据集进行不相交聚类而设计的,处理速度很快。该功能由Analyze菜单下的K-Means Cluster命令来实现,它既可以使用系统的默认值对观测进行分类,也可以通过各种参数进行限制以达到满意的结果。这种限制包括事先规定分类类数、迭代次数等。

在主菜单栏中选择Analyze→Classify→K-Means Cluster命令,即可打开如图1-83所示的K-Means Cluster Analysis对话框。

图1-83 K-Means Cluster Analysis对话框

在对话框的左侧为源变量列表框,右边的Variables列表框为变量框,用来列出参与聚类分析的变量。要选入聚类变量,在左边的源变量列表框中选中变量,单击按钮即可。

Label Cases文本框用于选入标签变量,即用来标志各观测值的所属类的变量,选择标签变量的操作同上。

Number of Clusters文本框用来定义聚类数目,系统默认值为2。有时根据需要事先已确定分类数,或者对数据文件进行观察可预计分类数,故很多情况下都要对它进行修改,否则得到的聚类结果可能很不合理。

Cluster Centers选项组用于选择凝聚点,包括Read initial和Write final两个复选框:Read initial复选框表示从指定的数据文件中读入初始聚心,单击其后的File按钮,弹出选择文件的对话框,可按照一定的路径来选择所需的文件;Write final复选框:用来把聚类过程凝聚点的最终结果保存到指定的数据文件里,其操作与Read initial from复选框一样。

Method选项组提供了两种聚类方法:Iterate and classify为系统默认方法,它是指在迭代过程中不断改变凝聚点的快速聚类法;Classify only方法表示在聚类过程中并不改变其凝聚点,使用初始凝聚点进行聚类。

下面对主对话框中的扩展按钮进行相应介绍。

1. Options按钮

在主对话框中单击Options按钮,即可打开K-Means Cluster Analysis: Options(快速聚类分析:选项)对话框,如图1-84所示。

图1-84 K-Means Cluster Analysis: Options对话框

该对话框用于设置输出的统计量和对缺失值的处理方式。

在Statiatics选项组中列出了可供选择的统计量:Initial cluster centers,即要求输出初始凝聚点,该选项为系统默认选项;ANOVA table指方差分析表,及对每个聚类变量进行单变量的F检验,但这里的F检验很简单,并没有详细解释检验的各种概率的含义,而且当把所有的观测归为一类时,该表就不显示;Cluster information for each case即要求输出每个样品的聚类信息,包括各观测的分类信息、各观测与其所属类凝聚点的欧氏距离以及各类凝聚点相互之间的距离。

Missing Values选项组用于设置缺失值的处理方式:Exclude cases listwise选项,表示删除分析变量中带有缺失值的观测量,为系统默认选项;Exclude cases pairwise选项,表示只有当观测的所有聚类变量均为缺失值时才将其删除,否则用其他非缺失变量根据距离把它分配到最近的类中。

设置完成后,单击Continue按钮确认选择并返回到主对话框。

2. Save按钮

在主对话框中单击Save按钮,即可打开K-Means Cluster: Save New Variables(快速聚类:保存新变量)对话框,如图1-85所示。

图1-85 K-Means Cluster: Save New Variables对话框

该对话框中包括两个复选框:Cluster membership复选框,若选择此项,则保存聚类的某些结果,它生成新变量表示各观测的分配结果;Distance from cluster center复选框,若选择此项,将产生一个新变量用以表示各观测与其所属类凝聚点间的欧氏距离。

设置完成后,单击Continue按钮确认选择并返回到主对话框。

3. Iterate按钮

只有在Method选项组中选中了Iterate and classify单选按钮时,才会激活该按钮。单击Iterate按钮,即可打开如图1-86所示的K-Means Cluster Analysis:Iterate(快速聚类:迭代次数)对话框。

图1-86 K-Means Cluster Analysis: Iterate对话框

该对话框用于定义迭代次数。

Maximum 文本框用于限定快速聚类过程的最大迭代次数以作为过程终止的一个依据,即迭代次数达到或超过框中数字时停止。框中的数字10是系统的默认值,用户可以根据具体问题输入一个合理的最高迭代次数(正整数),一般在1~999之间。

Convergence 为收敛因子,用于指定快速聚类法的收敛依据。系统的默认参数为0,若要改变该参数值,只需重新输入一个0~1之间的正数。如果参数为0.2,则当迭代使得凝聚点改变的最大距离小于初始聚心距离的2%时,迭代过程终止。该参数提供了过程停止的另一个依据。迭代过程中,只要收敛依据之一得到满足,迭代过程就会终止。

Use running means复选框表示要求每分配一个观测到某一类中,就立刻计算新的凝聚点,从而数据文件中观测的顺序就有可能影响凝聚点。不选中此复选框则表示分配完所有的观测之后才计算新的凝聚点,这样能节省时间。

设置完成后,单击Continue按钮确认并返回到主对话框。

所有设置完毕后,单击OK按钮即可执行快速聚类分析。

1.8.2 分层聚类

分层聚类又称系统聚类,其聚类过程是按照一定层次进行的。分层聚类有两种类型:Q型聚类是对样本进行聚类,使具有相似特征的样本聚集在一起;R型聚类即对变量进行聚类,使相似的变量聚集在一起。分层聚类的聚类方式也分为凝聚方式聚类和分解方式聚类两种方式。

分层聚类通过Cluster菜单中的Hierarchical Cluster命令来实现,在实际例子中,经常要对非欧氏距离或者量纲不一样的数据进行聚类分析,所以聚类之前必须先对数据进行标准化处理,否则就无法进行聚类,而若进行聚类,也会产生错误结果。SPSS中的Proximitice过程能根据观测的各变量对数据进行预处理,从而消除各种非标准因素对聚类结果的影响。SPSS 系统在Hierarchical Cluster主菜单中提供了几种标准化数据的方法。

在主菜单栏中选择 Analyze→Classify→Hierarchical Cluster(分层聚类)命令,即可打开Hierarchical Cluster Analysis(分层聚类)对话框,如图1-87所示。

图1-87 Hierarchical Cluster Analysis对话框

在对话框的右侧为 Variable(s)文本框,左侧为变量列表框,从左侧的源变量列表框中选择变量进入该文本框中作为分层聚类的对象,选中变量后,单击按钮即可。

在变量列表框下方为Label Cases文本框,即变量标签列表框,选入该框的变量作为标签变量,用于对个案进行标注,它将大大增加聚类分析结果的可读性。但是,作为标签变量的必须为字符型变量。

Cluster选项组用于选择分层聚类的方法:Cases选项表示进行Q型聚类,即对样本进行分层聚类,该选项为系统默认选项;Variable选项表示进行R型聚类,即对变量进行分层聚类。

Display选项组用于选择输出内容。其中,Statistics选项表示输出聚类分析的相关统计量,而Plots选项表示输出聚类分析的相关图形。SPSS默认将两者同时输出。

在主对话框下方有4个扩展按钮,用于选择统计量、图形、聚类方法和新变量生成方式,下面一一进行介绍。

1. Statistics按钮

根据需要,可以自己选择输出选项。单击主对话框中的Statistics按钮,即可打开Hierarchical Cluster Analysis: Statistics(分层聚类:统计量)对话框,如图1-88所示。

图1-88 Hierarchical Cluster Analysis: Statistics对话框

在该对话框中罗列出输出结果选项:系统聚类过程状态表、距离矩阵以及聚类过程成员状态项。

Agglomeration schedule 复选框表示在输出结果窗口中列出系统聚类过程中每一步被合并的类、被合并类的类间距离以及最终的类水平。

Proximity matrix复选框表示在输出结果中给出项与项之间的距离矩阵。当然,这种矩阵依赖于所选的距离度量方法。当样品量很大时,该选项产生的输出量将会很大。

Cluster membership 选项组表示要求在输出结果中给出成员状态(所属类):None 单选按钮表示不列出聚类过程中类成员的状态表,为系统的默认选项。Single solution单选按钮表示对于一定的聚类类数a列出聚成a类时各聚类成员的状态情况,为单一解。在下面的文本框中输入一个大于1的数作为自定义的聚类类数。Range of solutions单选按钮,由分层聚类的定义可知该过程的每一步都对应一定的类数,所以可以根据实际需要列出所选定的一定范围内的聚类数所对应的聚类结果。在下方的 Minimum number of 文本框中输入一个大于1的整数 a,在Maximum number of文本框中同样输入一个大于1的整数b,其中b大于a,这样就会输出当分成ab类时各样本的所属类,是多个解。

设置完成后,单击Continue按钮确认选择并返回到主对话框。

2. Plots按钮

分层聚类过程能产生Dendrogram树形图和Icicle冰柱图两种图形。

单击主对话框中的Plots按钮,即可打开Hierarchical Cluster Analysis: Plots(分层聚类:图表)对话框,如图1-89所示。

图1-89 Hierarchical Cluster Analysis: Plots对话框

选中 Dendrogram 复选框表示输出树形图。该图画出聚类过程每一步是哪两类被合并以及这一步的并类距离。用通过垂直线连在一起的两条直线来表示被合并的类。该选项还对实际的距离尺度进行转换,使得距离取值在0~25之间。而且,它还可以列出相邻两步并类距离之比。因此,该选项的结果为我们提供了如何选择合适的聚类类数的信息。

Icicle 选项组表示输出冰柱图。冰柱图提供了分层聚类分析的并类信息,包括整个聚类过程或者是选定类数范围内的部分。根据需要,还可以选择垂直画法或者水平画法。

All clusters单选按钮:选定该项后冰柱图中会列出聚类过程中每一步的信息。它的优点是通过该图可以看清楚整个并类过程以利于确定聚类数;缺点是当样品量很大时,输出量太大,从而增大了过程的烦琐程度。

Specified range of cluster:选择该项后冰柱图只包含选定聚类数范围内的部分。类数范围可由用户自定义,其操作与前面所讲的Statistics中的Range of solutions一样:在Start cluster文本框中输入开始的步数;Stop cluster文本框中输入结束的步数;在By文本框中输入中间间隔的步数。该选项让用户可以有目的地根据实际需要进行选择,使得输出量不至于太大。

None单选按钮:选中该项表示不输出冰柱图。

Orientation 选项组提供了画图方向的两个单选按钮:Vertical 表示显示纵向冰柱图;Horizontal表示显示横向冰柱图。

设置完成后,单击Continue按钮确认选择并返回到主对话框。

3. Method按钮

单击主对话框中的Method按钮,即可打开Hierarchical Cluster Analysis: Method(分层聚类:计算方法)对话框,如图1-90所示。

图1-90 Hierarchical Cluster Analysis:Method对话框

在该对话框中可以确定聚类过程中采用的具体方法、距离的计算方法以及数据转换的方法。

在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法,对应地就有多种不同的聚类方法。在Cluster下拉列表框中给出了7种方法。

Between-groops linkage(组间平均链锁距离法):它使得合并两类之后,不同类的样品两两之间的平均距离达到最小。该选项为系统默认选项。

Within-groops linkage(组内平均链锁距离法):它使得合并后的类中所有的样品之间的平均距离达到最小。

Nearest neighbor(最短距离法):以两个类中最邻近的两个样品的距离作为类间距离进行聚类分析。

Furthest neighbor(最长距离法):以两个类中最远的两个样品的距离作为类间距进行聚类分析。

Centroid clustering(重心法):以两个类的重心之间的距离(这里的重心是指样品均值)作为类与类之间的距离进行聚类分析。

Median clustering(中间距离法):以两类变量中心之间的距离作为类与类之间的距离。

Ward's method(离差平方和法):由Ward提出,所以称之为Ward法。具体做法是先将n个样品各自成一类,然后每次减少一类,随着类与类的不断聚合,类间的离差平方和必然不断增大,选择使离差平方和增加最小的两类合并,直到所有的样品归为一类为止。

由前面对分层聚类的介绍可知,使用何种距离标准以及用哪种方法计算类间的距离是聚类过程的两大重要因素。所以在进行聚类之前还必须先确定这两个因素。

在聚类分析中,首先要清楚用来计算距离的变量的类型。大致地,把变量的类型分成3种:等间隔测度的变量、计数变量、二值变量。Hierarchical Cluster Analysis: Method 对话框中的Measure选项组中有对应的3个选项:Interval、Counts和Binary。

Interval选项为默认选项,在其下拉列表框中提供了8种距离选项:Euclidean distance(欧氏距离)、Squared Euclidean distance(平方欧氏距离)、Cosine(夹角余弦)、Chebychev (切比雪夫距离)、Minkowski(闵可夫斯基距离)、Block(绝对距离)、Pearson correlation(皮尔逊相关性度量)、Customized(自定义距离)。关于这8种距离,在前面已经详细讲解过,此处不再赘述,读者可参照上文进行学习。

Counts选项用于确定当数据为离散数据时不相似性的度量方法,系统默认使用卡方测度。在其下拉列表框中有Chi-Squre Measure(卡方测度)和Phi-Squre Measure(Φ2测度)两种度量非相似性的方法,这两种方法在前面也已有详细讲解,读者可参照上文进行学习。

选中Binary单选按钮,可以确定当数据为二值特征的数据时距离和不相似性的度量方法。默认时,数值1表示字符的存在,数值0表示不存在,可以通过在Present文本框和Absent文本框中进行修改。

在其下拉列表框中提供了多种二值变量的度量方法。在对各方法进行仔细说明之前,必须先弄清楚二值变量的一些要点及含义。显然,二值变量的值域只包含两个值,其中的一个值通常代表某一特性出现,另外一个值则代表特性不出现。这两个参数值可以自己指定。不指定的情况下,系统默认1表示特征出现,0表示特征不出现。

系统提供了下列度量方法。

Euclidean distance:利用一个四格表来计算距离,得到SQRT(b+c)。其中bc都表示两个特性有且仅有一个发生的对角单元格。

Squared Euclidean distance:该项计算不匹配的事件数,即上面所说的b+c。它的最小值为0,没有上界。

Size difference:计算不对称指标,它的值在0~1之间变化。

Pattern difference:计算二值数据的非相似测度,取值范围为0~1。计算式为bc/n2,其中bc的意思与上面所讲的一样,n为样本量。

Variance:根据四格表计算得到。计算式为(b+c)/4n,取值范围为0~1。式中的 bcn的解释同上。

Dispersion:计算相似性指数。取值范围为-1~1。

Shape:取值于0~1的距离测度。

Simple matching:计算匹配数占全部总数的比例。匹配和不匹配的权重是一样的。

Phi 4-point correlation:该指数是皮尔逊相关系数在二值数据方面的类似结论,取值于0~1。

Lambda:Goodman 与Kruskal's的λ

Anderberg'D:与λ 类似。

Dice:在计算该指数时不考虑特性都不发生的情况,且匹配的部分以两倍的权重计算。比如大家所熟悉的Czekanowski 或Sorensen测度。

Hamann:该指数计算的是匹配数减去非匹配数的差占总数的比例。取值变化范围为-1~1。

Jaccard:该指数与 Dice 指数很相似,都是在计算时不考虑特性同时不发生的情况,不同的是它考虑匹配与不匹配的部分所占权重相同。

Kulczynski 1:该指数计算的是事件同时发生的部分占不匹配部分的比例。下界为0,但是没有上界。理论上,当没有不匹配部分的情况下该指数是无定义的。在这种情况下,软件指定该指数的值为9999.999(大于此值的情况也取 9999.999)。

Kulczynski 2:该指数依赖于已知一个特性发生的情况下,另一特性发生的条件概率。系统考虑每一项对其他项的预测值以对该指数进行计算。

Lance and Williams:由四格表计算得到,表达式为(b+c)/(2a+b+c)。其中a表示事件在两个特征项同时发生时的单元格。bc都代表两个特征项有且仅有一个发生所对应的单元格。该测度取值范围为0~1,如大家所知道的 Bray-Curtis。

Ochiai:该测度是Cosine(余弦)测度在二值变量方面的近似。取值范围为0~1。

Rogers and Tanimoto:该测度赋予不匹配的部分两倍的权重。

Russel and Rao:匹配与不匹配部分的权重相同。

Sokal and Sneath 1:该指数赋予匹配部分两倍的权重。

Sokal and Sneath 2:该指数赋予不匹配部分两倍的权重,且不考虑两个特征项同时不发生的情况。

Sokal and Sneath 3:该指数表示匹配部分对不匹配部分的比。下界为0,但没有上界。当不存在不匹配部分时,该指数在理论上是没有定义的。在这种情况下,软件赋予该指数的值为9999.999(指数值比赋予值大的情况也取此值)。

Sokal and Sneath 4:该指数依赖于匹配的条件概率。

Sokal and Sneath 5:该指数计算的是正负匹配的条件概率的几何均值的平方。它与项的编码独立,取值范围为0~1。

Yule's Y:取值范围为-1~1。

Yule's Q:为Goodman与Kruskal的γ 的特例,取值范围为-1~1。

Transform Values选项组中对应的Standardize下拉列表框中列出了对所考察数据进行标准化的方法,并决定处理是针对样本还是针对变量。By case 单选按钮表示针对样本,适合于 R型聚类分析;By variable单选按钮表示针对变量,适合于Q型聚类分析。在Standardize的下拉列表框中列出的选项有以下几个。

None 选项:当数据不存在上述非标准化因素时,无须对数据进标准化处理,系统用该选项来表示,为系统的默认选项。

Z scores选项:表示把数据标准化成一个均值为0、标准差为1的Z分数。

Range –1 to 1选项:表示把被标准化的项的每个变量值除以每个变量的极差。极差是指变量在所有样本中的最大值与最小之差。

Range 0 to 1选项:表示把每个被标准化的项减去最小值,再除以极差。

Maximum magnitude of 1选项:该过程把被标准化的项的每个变量值除以每个变量的最大值。

Mean of 1选项:该选项把被标准化的项的每个变量值除以每个变量的均值。

Standard deviation of 1选项:该选项把被标准化的变量或样品的值除以该项的标准差。

计算出距离之后,Transform Measures选项组用于选择将所得到的距离进行转换的方法。Absolute values复选框指取距离的绝对值,但是只有当我们用数值符号表示项与项之间的相关方向,且只关心数值大小时才使用这种转换方法;Change sign复选框用于实现相似性和不相似性之间的转换,可以选择此项来交换距离大小的排序;Rescale to 0-1 range复选框用于将距离差按比例缩放到0~1之间的范围内,标准化时,首先减去最小距离,然后除以极差。当然,如果原来的距离尺度已经是合理的,就不用再定义新的尺度。

设置完成后,单击Continue按钮确认选择并返回到主对话框。

4. Save按钮

分层聚类可以通过产生新变量来保存聚类结果的某些信息,如各聚类成员的所属类等。在主对话框中单击Save按钮,即可打开Hierarchical Cluster Analysis: Save New Variables(分层聚类:保存)对话框,如图1-91所示。

图1-91 Hierarchical Cluster Analysis: Save New Variables对话框

在该对话框中,用户可以根据需要选择保存的信息。

None单选按钮表示不产生新变量来保存分类结果信息。

Single solution单选按钮表示只保存聚类过程中某一步的结果信息,即只对于确定的分类数产生新变量。在下面的文本框中输入一个大于1的整数即可确定分类数。

Range of solutions单选按钮表示只对一定分类数范围内生成新变量保存结果信息。分类数的范围可自己选定,在下方的 Minimum number of 文本框中输入一个大于1的整数 a,在Maximum number of文本框中同样输入一个大于1的整数b,其中b大于a

设置完成后,单击Continue按钮确认选择并返回到主对话框。

所有设置完成后,单击OK按钮,执行分层聚类分析。

1.8.3 判别分析

聚类分析是在实现对总体分类情况没有先验信息的情况下对样本进行分类,而判别分析则是在已知分类数目的情况下,根据一定的指标对不知类别的数据进行归类。判别分析已经在生物学、经济、医学等多个领域得到广泛的应用。

在数据编辑器窗口中,在主菜单栏中选择Analyze→Classify→Discriminant命令,即可打开Discriminant Analysis(判别分析)对话框,如图1-92所示。

图1-92 Discriminant Analysis对话框

该对话框中各项功能说明如下。

右侧的Grouping Variable文本框为分组变量框,分组变量只能选入一个,而且必须为数字新变量。要选择分组变量,在左侧的源变量列表框中选中变量,然后单击按钮,即可将变量选入Grouping Variable文本框中。

选入分组变量后,Define Range 按钮被激活。单击该按钮,即可打开如图1-93所示的Discriminant Analysis: Define Range(判别分析:定义变量取值范围)对话框。

图1-93 Discriminant Analysis: Define Range对话框

该对话框用于指定所选分类变量的取值范围。在 Minimum 文本框中输入该分类变量的最小值,在Maximum文本框中输入该分类变量的最大值。设置完成后,单击Continue按钮,确认设置并返回到主对话框。

Independents 列表框为用户所熟悉的变量列表框,在该列表框中可以输入多个独立变量作为参与判别分析的变量。

在Independents列表框下有两个选项,用来确定分析方法:Enter independents together单选按钮,选择该项,将不加选择地使用所有自变量进行判别分析,建立全模型,不需要作进一步的选择。当认为所有自变量都能对观测量特征提供丰富的信息时,使用该选项。Use stepwise method单选按钮表示采用逐步判别法进行分析,最后生成的判别函数中将只包含主要的变量。选择该项后 Method 按钮被激活,可以进一步选择判别分析方法。当不认为所有自变量都能对观测量特征提供丰富的信息时,使用该选项,因此需要根据对判别贡献的大小进行选择。

如果希望使用一部分观测量进行判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识,则用Select功能进行选择。从变量列表框中选择变量进入Selection文本框后,右侧的Value按钮被激活。单击Value按钮,即可打开Discriminant Analysis: Set Value对话框,如图1-94所示。

图1-94 Discriminant Analysis: Set Value对话框

在该对话框中,Value for Selection文本框用于输入一个数值,则将只对所选择的变量中含有该值的个案进行分析。一般均使用数据文件中的所有合法观测量,此步骤可以省略。

下面就Discriminant Analysis对话框中的几个扩展按钮进行详细讲解。

1. Statistics按钮

在主对话框中单击Statistics按钮,即可打开如图1-95所示的Discriminant Analysis: Statistics(判别分析:统计量)对话框。

图1-95 Discriminant Analysis: Statistics对话框

在该对话框中可以指定输出的统计量,可以选择的输出统计量分为描述统计量、判别函数系数和自变量的系数矩阵3种。

在Descriptives选项组中选择对原始数据的描述统计量的输出。

Means复选框:选中该项,可以输出各类中各自变量的均值(MEAN)、标准差(Std. Dev.)和各自变量总样本的均值和标准差。

Univariate ANOVA.S复选框:选中该项,对各类中同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。

Box's M复选框:选中该项,对各类的协方差矩阵相等的假设进行检验,如果样本足够大,表明差异不显著的 p 值,同样表明矩阵差异不明显。

在Function Coefficients选项组中选择输出判别函数系数:Fisher's复选框,选中该项,可以直接用于对新样本进行判别分类的费歇尔系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量;Unstandardized复选框,选中该项则采用未经标准化处理的判别系数。

在Matrics选项组中可以选择要求给出的矩阵。

Within-groups correlation matrix复选框:选中此项,输出类内相关矩阵,它是根据在计算相关矩阵之前将各组(类)协方差矩阵平均后计算类内相关矩阵。

Within-groups covariance matrices复选框:选中此项,计算并显示合并类内协方差矩阵是将各组(类)协方差矩阵平均后计算的,区别于总协方差阵。

Total covariance matrix复选框:选中此项,计算并显示总样本的协方差矩阵。

2. Method按钮

只有在分析方法选择项中选中了Use stepwise method单选按钮,要求采用逐步判别方法时,该按钮才会被激活。

在主对话框中单击Method按钮,即可打开Discriminant Analysis: Stepwise Method对话框,如图1-96所示。

图1-96 Discriminant Analysis: Stepwise Method对话框

在该对话框中可以选择判别分析的方法和停止的判据。

1) Method选项组

在该选项组中选择判别方法,可供选择的判别分析方法如下。

(1) Wilks' lambda单选按钮。选中该项,每步都使Wilk 的λ 统计量最小的进入判别函数。

(2) Unexplained variance单选按钮。选中该项,每步都使各类不可解释的方差和最小的变量进入判别函数。

(3) Mahalanobis distance单选按钮。选中该项,每步都使靠得最近的两类间的Mahalanobis距离最大的变量进入判别函数。

(4) Smallest F ratio单选按钮。选中该项,每步都使任何两类间的最小的F值最大的变量进入判别函数。

(5) Rao's V单选按钮。选中该项,每步都使任何两类间的最小的F值最大的变量进入判别函数。一个要加入到模型中的变量的 V 值指定一个最小增量,选择此种方法后,应该在该项下面的 V-to-enter 文本框中输入这个增量的指定值。当某变量导致的 V 值增量大于指定值的变量进入判别函数。

2) Criteria选项组

在该选项组中选择逐步判别停止的判据,可供选择的判据如下。

(1) Use F value单选按钮。选中该项,使用F值,这是系统默认的判据,当加入一个变量(或剔除一个变量)后,对在判别函数中的变量进行方差分析。当计算的 F 值大于指定的 Entry值时,该变量保留在函数中,Entry 的默认值是3.84;当该变量使计算的 F 值小于指定的Removal 值时,该变量从函数中剔除,Removal 的默认值是 2.71。也就是说,当被加入的变量 F ≥3.84才能把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型中移出的变量 F ≤2.71时,该变量才被移出模型,否则模型中的变量不会被移出。设置这两个值时应该注意:Entry>Removal 值。

(2) Use probability of F单选按钮:选中该项,用F检验的概率决定变量是否加入函数或被剔除而不是用F值,加入变量的 F 值概率的默认值为0.05,移出变量的 F 值概率为 0.9。Removal 值(移出变量的 F 值概率)>Entry 值(加入变量的 F 值概率)。

3) Display选项组

在该选项组中可以设置在结果输出窗口中的其他显示项。

(1) Summary of steps复选框:该选项为系统默认选项。选择此项,为Wilk λ 、输入输出变量、分析变量和没有参与分析的变量生成表,为所有变量输出容限和选择变量的值,同时输出F值、显著性水平和最小容限。

(2) F for pairwise distance复选框:选择此项,表示显示配对组的F比矩阵,以及组间的马氏距离的显著性检验结果。

3. Classify按钮

在主对话框中单击Classify按钮,即可打开Discriminant Analysis: Classification对话框,如图1-97所示。

图1-97 Discriminant Analysis: Classification对话框

1) Prior Probabilities选项组

该选项组中有两个选项,从中选择先验概率:All groups equal单选按钮,选中该项,假设各类先验概率相等,若分为m类,则各类先验概率均为1/m; Compute from groups sizes单选按钮,选中该项,假设由各类的样本量计算决定,则各类的先验概率与其样本量成正比。

2) Use Covariance Matrix选项组

在该选项组中选择分析使用的协方差矩阵,两者选其一。Within-groups单选按钮,选中该项,指定使用合并组内协方差矩阵进行分类;Separate-groups 单选按钮,选中该项,指定使用各组协方差矩阵进行分类。由于分类是根据判别函数,而不是根据原始变量,因此该选项不是总等价于二次判别。

3) Display选项组

在该选项组中选择输出项。Casewise results复选框,选中该项,要求输出每个观测量,包括判别分数、实际类、预测类(根据判别函数求得的分类结果)和后验概率等。选择此项,其下的 Limits cases to复选框加亮,在后面的文本框中输入观测量数 n,选择此项则仅对前 n 个观测量输出分类结果,观测数量大时可以选择此项。Summary table复选框,选中该项,要求输出分类的小结,给出正确分类观测量数(原始类和根据判别函数计算的预测类相同)和错分观测量及错分率。Leave-one-out classification复选框,选中该项,要求输出对每个观测量进行分类的结果,所依据的判别函数是由除该观测量以外的其他观测量导出的,也称为交互校验结果。

4) Plots选项组

在该选项组中选择可以并列选择输出的统计图形:Combined-groups 复选框,选中该项,生成一张包括各类的散点图。该散点图是根据前两个判别函数值作的散点图。如果只有一个判别函数,就输出直方图。Separate-groups 复选框,选中该项,根据前两个判别函数值对每一类生成一张散点图,共分为几类就生成几张散点图,如果只有一个判别函数,就输出直方图。Territorial map复选框,选中该项,生成用于根据函数值把观测量分到各组中去的边界图。此种统计图把一张图的平面划分出与类数相同的区域,每一类占据一个区,各类的均值在各区中用星号标出。如果仅有一个判别函数,则不作此图。

5) Replace missing values with mean复选框

在该复选框中选择对缺失值的处理方法。选中该项,则用该变量的均值代替缺失值。

4. Save按钮

在主对话框中单击Save按钮,即可打开Discriminant Analysis: Save对话框,如图1-98所示。

图1-98 Discriminant Analysis: Save对话框

1) Predicted group membership复选框

选中该项,要求建立一个新变量,表明观测量被预测的分类,是根据判别分数把观测量按后验概率最大指派所属的类,每运行一次Discriminant过程,就建立一个表明使用判别函数预测的各观测量属于哪一类的新变量。每一次运行建立新变量的变量名为dis_1,如果在工作数据文件中不把前一次建立的新变量删除,第n次运行Discriminant过程建立的新变量默认的变量名为dist_n。

2) Discriminant scores复选框

选中该项,要求建立表明判别分数的新变量,该分数是由未标准化的判别系数乘自变量的值,将这些乘积求和后加上常数得来。每次运行Discriminant过程都给出一组表明判别分数的新变量。建立几个判别函数就有几个判别分数变量,参与分析的观测量共分为m类,则建立m-1个判别函数,指定该选择项,就可以生成m-1个表明判别分数的新变量。

3) Probabilities of group membership复选框

选中该项,要求建立新变量表明观测量属于某一类的概率,有m类,对一个观测量就会给出m个概率值,因此建立m个新变量。

4) Export model information to XML file选项组

该选项组用于将模型信息输出到选定的文件中。左边的文本框显示选定的文件,右边有Browse按钮,单击该按钮,则弹出用户所熟悉的选择文件的窗口,在其中选择所要输出的文件。