1.5 相关分析
变量间的关系分为确定性关系和不确定性关系两类:确定性关系即通常所说的函数关系;非确定性关系即相关关系。
相关分析用于描述两个变量之间关系的密切程度,它反映的是当控制了其中一个变量的取值后,另一个变量的变异程度。其显著特点是变量不分主次,被置于同等的地位。
数据度量尺度不同,相关分析的方法也不同。连续变量之间的相关性常用 Pearson 简单相关系数来测定;定序变量的相关性常用Spearman秩相关系数或Kendall秩相关系数来测定;而定类变量的相关分析则要使用列联表分析方法。
1.5.1 Bivariate过程
Bivariate 过程包括相关分析和非参数相关分析过程。选择此选项,可以选择计算 Pearson简单相关系数、Spearman等级相关系数和Kendall τ 相关系数。检验的假设为:相关系数为0。可选择是单尾检验还是双尾检验。
首先打开 Bivariate 主窗口。在主菜单栏中选择 Analyze→Correlate→Bivariate 命令,即可打开如图1-51所示的Bivariate Correlations对话框。
图1-51 Bivariate Correlations对话框
在Bivariate Correlations对话框中右侧为Variables文本框,该文本框用于选入需要进行分析的变量,至少需要选入两个变量,如果选入了多个变量,则分析结果会以矩阵的形式给出两直线相关分析的结果。
下方的Correlation Coefficients选项组提供了3种相关系数的选项,在此选项组内选择计算哪一种相关系数。
Pearson复选框。如果选中此复选框,则会计算Pearson相关系数,即积矩相关系数。只有变量是连续型变量(又称等间隔测度变量)才能选用此项。这也是系统默认的选项。
Kendall's tau-b复选框。如果选中此复选框,则会计算Kendall τ 相关系数,反映定序变量的一致性,它适合于有序变量或不满足正态分布假设的等间隔数据。
Spearman复选框。如果选中此复选框,则会利用非参数检验方法计算Spearman相关系数,它也适合于有序变量或不满足正态分布假设的等间隔数据。
Test of Significance(显著性检验)选项组用于选择检验的尾部分布,有以下两个选项:Two-tailed 选项表示进行双尾检验,如果不清楚变量之间是正相关还是负相关时,应选择此选项,该选项为系统默认选项;One-tailed 选项表示进行单尾检验,如果了解变量之间的相关关系是正的还是负的,则应选择此选项。
在Bivariate Correlations对话框中还有Flag significant correlations复选框,如果选中此复选框,则在输出结果中标出有显著意义的相关系数。如果相关系数的右上角上有“*”,则代表显著性水平为0.05;如果相关系数的右上角上有“**”,则代表显著性水平为0.01。
在Bivariate Correlations对话框中还有Options按钮,单击该按钮,即可弹出如图1-52所示的Bivariate Correlations:Options(双变量相关分析:选项)对话框。
图1-52 Bivariate Correlations: Options对话框
在Bivariate Correlations: Options对话框中可以选择统计量的计算和缺失值的处理方式。
在Statistics选项组中可以选择计算哪些统计量:选中Means and standard deviations复选框表示计算均值与标准差,即对每一个变量输出均值、标准差和无默认值的观测数;选中Cross-product deviations and covariances复选框表示对每一对变量输出叉积离差矩阵和协方差矩阵。叉积离差矩阵等于均值校正变量的积的总和,即Pearson相关系数的分子。
Missing Values选项组用于选择处理默认值的方法:Exclude cases pairwise选项表示在计算某个统计量时,在这一对变量中排除有默认值的观测,为系统默认选项;Exclude cases listwise选项表示对于任何分析,剔除所有含默认值的观测个案。
所有设置完成后,单击OK按钮,即可开始进行相关分析。
1.5.2 偏相关分析
偏相关分析也称净相关分析,它在控制其他变量的线性影响下分析两变量间的线性相关,所采用的工具是偏相关系数(净相关系数)。运用偏相关分析可以有效地揭示变量间的真实关系,识别干扰变量并寻找隐含的相关性。偏相关分析可以通过Correlate子菜单中的Partial命令来实现。
在主菜单栏中选择 Analyze→Correlate→Partial 命令,即可打开如图1-53所示的 Partial Correlations(偏相关分析)对话框。
图1-53 Partial Correlations主对话框
Variables列表框用于输入进行偏相关分析的变量,至少需要选入两个变量。若选入了多个变量,则给出两两偏相关分析的结果。在左侧的变量列表中选中要选择的变量,然后单击按钮即可。
Controlling列表框用于输入控制变量,其方法与选择相关变量一样。如果不选入控制变量,则进行的是简单相关分析。
Partial Correlations主对话框上的其他选项基本与Bivariate Correlations主对话框一样。下方的Test of Significance选项组用于选择检验的尾部分布:Two-tailed选项为系统默认选项,表示进行双尾检验,不清楚变量之间是正相关还是负相关时,应选择此项;One-tailed 选项表示进行单尾检验,当相关方向很明确时,选择此项。
与简单相关分析不同的是,在 Partial Correlations 主对话框的下方为 Display actual significance level复选框,如果选中此复选框则表示在显示相关系数时,显示实际的显著性概率。在输出结果中,如果相关系数的右上角上有“*”,则代表显著性水平为0.05;如果相关系数的右上角上有“**”,则代表显著性水平为0.01。
单击Options按钮,即可打开如图1-54所示的Partial Correlations:Options(偏相关分析:选项)对话框。
图1-54 Partial Correlations: Options对话框
该对话框与图1-52所示的简单相关分析的Options对话框基本相同,只是在Statistics选项组中的 Cross-product deviations and covariances 复选框变为 Zero-order correlations 复选框。Zero-order correlations复选框表示给出包括协变量在内所有变量的相关矩阵,即零阶相关矩阵,也称Pearson相关矩阵。
Partial Correlations: Options对话框中的其他选项在上一节中均有详细讲解,读者可参照上文进行学习,此处不再赘述。设置完毕后,单击Continue按钮确认选择并返回主对话框。
所有设置完成后,单击OK按钮即开始进行偏相关分析。
1.5.3 距离分析
距离分析(Distances)可以按照各种统计测量指标来计算各个变量(或记录)之间的相似性或不相似性(距离),从而为下面继续进行的聚类分析等提供信息,以分析复杂的数据集。距离分析(Distances)是对观测量之间或变量之间相似或不相似程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离,以便用于其他分析过程,如聚类分析、引资分析等。
在数据编辑器窗口的主菜单栏中选择 Analyze→Correlate→Distances 命令,打开如图1-55所示的Distances主对话框。
图1-55 Distances主对话框
Variables列表框用于选入变量,Label Cases(个案标识变量)文本框用于选入个案标识变量,以增加结果的可读性。
在 Compute Distances(计算距离)选项组中可选择计算距离的对象,有以下两个选项:Between cases选项,表示计算每一对个案之间的距离;Between variables选项,表示计算每一对变量之间的距离。
在 Measure(测度)选项组中选择计算距离测度的类型,包括以下选项:Dissimilarities 单选按钮,如选择此项,则会计算不相似性矩阵,数值越大表示距离越远;Similarities单选按钮,如选择此项,则会计算相似性矩阵,数值越大表示距离越远。系统默认为Dissimilarities选项。
Measures按钮是Distances对话框中最重要的一个按钮,选择Dissimilarities和Similarities单选按钮,会分别弹出两个不同的窗口,下面详细讲解。
设置完成后,单击OK按钮,即可执行距离分析。
1. Dissimilarity Measures选项和不相似性测度
如果在Measure选项组中选中Dissimilarities单选按钮,单击Measures按钮,会打开Distances:Dissimilarity Measures(距离分析:不相似性测度)对话框,如图1-56所示。
图1-56 Distances: Dissimilarity Measures对话框
1) Measure选项组
在Measure(测度)选项组中可以选择使用何种测度类型,包括Interval、Counts和Binary 3个单选按钮。
(1) Interval选项
Interval(等距间隔数据)选项表示要度量的变量(或观测)类型为间隔测度类型。在选择此项后,用户还需要从后面的下拉列表框中选择一种测度类型。首先我们用xi代表变量的第i个分量,用dxy表示变量X与Y之间的距离,在下面讲解各种距离时要频繁使用此处定义的符号。
Euclidean distance 选项:如选择此项,则表示使用欧氏距离(Euclidean)来表示距离, Euclidean距离是两变量之差的平方和的平方根,为系统默认选项。
Squared Euclidean distance选项:如选择此项,则使用欧氏距离的平方来表示距离,即两个变量之差的平方和。
Chebychev 选项:如选择此项,则使用契比雪夫距离来表示距离。
Block 选项:如选择此项,则使用Block 距离,即区间距离,为变量的两个值之间差的绝对值之和。
Minkowski选项:如选择此项,则使用闵可夫斯基距离,即两变量之差的p次幂绝对值之和的p次方根。
Customized选项:如选择此项,则让用户自己定义距离公式,表示两变量值之差的p次幂绝对值之和的r次方根。用户在Power文本框中设置分量值之差的幂次,在Root文本框中设置分量值之差的根次。
(2) Counts选项
Counts(计数数据)选项用于度量有序变量,表示选择了计数变量的选项。在选择此项后,用户还需要从后面的下拉列表框中选择一种测度类型:Chi-square measure选项表示进行卡方检验,即基于两组频数相等的卡方检验,测度的数量级取决于近似计算的两个变量或个案的总频数;Phi-square measure选项表示进行Phi方测度,即通过把不相似性的卡方检验除以联合频数平方根,使其正规化。
(3) Binary选项
Binary(二值数据)选项表示度量的变量类型为二值变量,在选择此项后,用户还需要从后面的下拉列表框中选择一种测度类型。
Euclidean distance选项:如选择此项,则使用欧氏距离来表示距离,根据四格表计算SQRT(b+c),此处的b和c是在一项中出现而在另一项中不出现的对角元素。其最小距离为0,最大距离为无穷大。
Squared Euclidean distance选项:如选择此项,则使用二元欧氏距离的平方来计算不一致的个案数。其最小距离为0,最大距离为无穷大。
Size difference选项:如选择此项,则使用大小不同的测度来表示距离,范围为(0,1)的不对称指数。
Pattern difference选项:模式差异测度,是一个从0到1的不相似性测度,根据四格表计算 bc/(n**2),其中,b 和 c 是在一项中出现而在另一项中不出现的对角元素,n为观测个数。
Variance选项:如选择此项,则表示以方差来表示距离。该测度范围为0~1,从四格表中计算bc/4n,其中,b和c是在一项中出现而在另一项中不出现的对角元素,n为观测个数。
Shape选项:形状测度,在0到1的范围内测度距离。
Lance and Williams 选项:Lance and Williams 不相似测度,如选择此项,则使用Bray-Curtis 非等距系数来测度距离,它的值界于0和1之间。根据四格表计算(b+c)/(2a+b+c),其中,a是在两项中均出现的观测相对应的元素,b和c是在一项中出现而在另一项中不出现的对角元素。
用户可在Present和Absent文本框中输入改变某特性出现或不出现的值,系统默认为0。
2) Transform Values选项组
Transform Values(数值转换)选项组允许用户在进行近似计算之前,设置转换数值的方式,但对二值数据不能进行标准化。在Standardized(标准化)下拉列表框中选择在进行计算之前,对变量或观测量进行标准化的方法。
None选项:如选择此项,则对观测值或变量不进行标准化。
Z-Score选项:如选择此项,则对观测值或变量标准化到Z分数。标准化后,其均值为0,方差为1。
Range -1 to 1选项:如选择此项,则对观测值或变量标准化到-1~1之间的范围内。标准化方法是使用要标准化的观测值或变量除以观测值或变量值的范围。
Range 0 to 1选项:如选择此项,则对观测值或变量标准化到0~1之间的范围内。标准化方法是使用要标准化的观测值或变量减去最小的观测值或变量,然后再除以观测值或变量值的范围。
Maximum magnitude of 1选项:如选择此项,则对观测量或变量都除以观测量或变量的最大值。如果最大值为0,则将所有变量或观测量取它们本身的负值。
Mean of 1选项:如选择此项,则对观测量或变量都除以观测量或变量的均值。如果均值为0,则将所有的数值都加 1。
Standard deviation of 1选项:如选择此项,则观测量或变量都除以标准差。如果标准差为0,其值保持不变。
除None选项以外,其他选项都可指定标准化对象:By variable表示对变量进行标准化;By cases表示对观测量进行标准化。
3) Transform Measures选项组
Transform Measures(转换测度)选项组允许对距离测度的结果进行转换。在距离测度计算完成后才进行对测度的转换,共有3种转换方法,可以选择多项,具体选项包括:Absolute values复选框,表示对距离取绝对值,如果仅对相关的数值感兴趣的话,可以使用这种转换;Change sign复选框,表示转变符号,把相似性测度值转换成不相似性测度值或相反;Rescale to 0-1 range复选框,如选择此项则先剪去最小值,然后除以范围差值,使距离标准化,对具有一定含义的标准化的测度一般不再使用此方法进行转换。
2. Similarity Measures选项和相似性测度
如果在如图1-55所示的Distances对话框中选择了Similarities选项,单击Measures按钮,则会打开Distances: Similarity Measures(距离分析:相似性测度)对话框,如图1-57所示。
图1-57 Distances:Similarity Measures对话框
1) Measures选项组
Measures(测度)选项组给出选择相似性测度的类型,包括Interval和Binary两个单选按钮。
Interval(等距数据)选项,用于度量间隔测度类型的变量(或观测值)。在选择此项后,用户还需要从后面的下拉列表框中选择一种相似性测度方式:Pearson correlation 选项表示使用Pearson相关系数,其取值在-1~1之间,该项为系统默认选项;Cosine选项表示使用夹角余弦来度量相似性。
Binary(二值数据)选项,表示度量的变量(或观测量)为二值数据。单击后面的下拉按钮,在弹出的下拉列表中提供了20种可供选择的二值数据相似性测度,包括如下选项。
Russell and Rao选项:系统默认选项,如选择此项,则使用二分点乘积为配对系数。
Simple matching选项:如选择此项,则以配对数与总对数的比例为配对系数。
Jaccard选项:如选择此项,则将分子与分母中的配对数与非配对数给予相同的权重。
Dice选项:如选择此项,则使用Dice配对系数,分子与分母中的配对数给予加倍的权重。
Rogers and Tanimoto选项:如选择此项,则使用Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重。
Sokal and Sneath 1选项:如选择此项,则使用Sokal and Sneath Ⅰ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重。
Sokal and Sneath 2选项:如选择此项,则使用Sokal and Sneath Ⅱ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重。
Sokal and Sneath 3选项:如选择此项,则使用Sokal and Sneath Ⅲ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同。
Kulczynski 1选项:如选择此项,则使用Kulczynski Ⅰ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同。
Kulczynski 2选项:如选择此项,则使用Kulczynski平均条件概率。
Sokal and Sneath 4选项:如选择此项,则使用Sokal and Sneath 条件概率。
Hamann选项:如选择此项,则使用Hamann概率。
Lambda选项:如选择此项,则使用Goodman-Kruskai相似测量的λ值。
Anderberg's D选项:如选择此项,则以一个变量状态预测另一个变量状态。
Yule's Y选项:如选择此项,则使用Yule综合系数,属于2×2四格表的列联比例函数。
Yule's Q选项:如选择此项,则使用Goodman-Kruskal γ 值,属于2×2四格表的列联比例函数。
Ochiai选项:如选择此项,则使用Ochiai二分余弦测量。
Sokal and Sneath 5选项:如选择此项,则使用Sokal and Sneath Ⅴ型相似测量。
Phi 4 point correlation选项:如选择此项,则使用Pearson相关系数的平方值。
Dispersion选项:如选择此项,则使用Dispersion相似测量。
用户可在Present和Absent文本框中输入改变某特性出现或不出现的值,系统默认为0。
2) Transform Values选项组
Transform Values(数值转换)选项组允许用户在进行近似计算之前,设置转换数值的方式,但对二值数据不能进行标准化。在Standardized(标准化)下拉列表框中选择在进行计算之前,对变量或观测量进行标准化的方法。
None选项:如选择此项,则对观测值或变量不进行标准化。
Z-Score选项:如选择此项,则对观测值或变量标准化到Z分数。标准化后,其均值为0,方差为1。
Range -1 to 1选项:如选择此项,则对观测值或变量标准化到-1~1之间的范围内。标准化方法是使用要标准化的观测值或变量除以观测值或变量值的范围。
Range 0 to 1选项:如选择此项,则对观测值或变量标准化到0~1之间的范围内。标准化方法是使用要标准化的观测值或变量减去最小的观测值或变量,然后再除以观测值或变量值的范围。
Maximum magnitude of 1选项:如选择此项,则对观测量或变量都除以观测量或变量的最大值。如果最大值为0,则将所有变量或观测量取它们本身的负值。
Mean of 1选项:如选择此项,则对观测量或变量都除以观测量或变量的均值。如果均值为0,则将所有的数值都加1。
Standard deviation of 1选项:如选择此项,则观测量或变量都除以标准差。如果标准差为0,其值保持不变。
除None选项以外,其他选项都可指定标准化对象:By variable表示对变量进行标准化;By cases表示对观测量进行标准化。
3) Transform Measures选项组
Transform Measures(转换测度)选项组允许对距离测度的结果进行转换。在距离测度计算完成后才进行对测度的转换,共有3种转换方法,可以选择多项,具体选项包括:Absolute values复选框,表示对距离取绝对值,如果仅对相关的数值感兴趣的话,可以使用这种转换;Change sign复选框,表示转变符号,把相似性测度值转换成不相似性测度值或相反;Rescale to 0-1 range复选框,如选择此项则先剪去最小值,然后除以范围差值,使距离标准化,对具有一定含义的标准化的测度一般不再使用此方法进行转换。