1.9 因子分析和主成分分析
在实际研究中往往希望尽可能多地收集相关数据,以期能对问题有比较全面、完整的把握和认识。但是,变量较多的时候会增加分析问题的复杂性,因为变量之间可能存在一定的相关性,从而导致多变量之间信息出现重叠现象。为了克服这种相关性、重叠性,通常采用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这就是一种“降维”的思想。
主成分分析就是利用“降维”的思想,在损失很少信息的前提下把多个指标转化为几个综合指标。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且每个主成分之间互不相关,这就使得主成分比原始数据具有某些更优越的性能。
因子分析是主成分分析的扩展和推广,也是利用“降维”的思想,通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。
与主成分分析相比,因子分析更加倾向于描述原始变量之间的相关关系。
1.9.1 因子分析
因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法,最早由心理学家Chales Spearman在1904年提出,它的基本思想是将实测的多个指标,用少数几个潜在的指标(因子)的线性组合表示。因子分析主要应用于两个方面:一是寻求基本结构,简化观测系统;二是对变量或样本进行分类。
在数据编辑窗口的主菜单栏中选择Analyze→Data Reduction→Factor命令,即可打开如图1-99所示的Factor Analysis(因子分析)对话框。
图1-99 Factor Analysis对话框
在主对话框左侧的源变量框中列出了所有的变量,Variables文本框用于选入参与因子分析的变量。
如果不想使用全部的样本进行分析,且数据文件存在一个选择变量,可将该变量选入Selection文本框,用于限制对含有指定值的个案集合进行分析。选入变量后,后面的Value按钮被激活,单击此按钮,即可打开Factor Analysis: Set Value(因子分析:设置有效值)对话框,如图1-100所示。
图1-100 Factor Analysis: Set Value对话框
在如图1-100所示的对话框中,在Value for Selection文本框中输入数值,确定选择该数值作为指定值。例如,在文本框中输入1,那么在进行因子分析时,则只选择变量的值为1的观测进行因子分析。设置完成后,单击Continue按钮确定并返回到主对话框。
下面就主对话框中的扩展按钮进行详细讲解。
1. Descriptives按钮
在主对话框中单击Descriptives按钮,即可打开Factor Analysis: Descriptives(因子分析:描述统计)对话框,如图1-101所示。
图1-101 Factor Analysis: Descriptives对话框
1) Statistics选项组
在此选项组中选择对哪些统计量进行运算。
Univariate descriptives复选框:如选择此项,则会输出单变量描述性统计量,包括原始变量的有效观测个案数量(N)、均值(Mean)和标准差(Std. Deviation)。
Initial solution复选框:为系统默认选项,如选择此项,则会输出原始变量的公因子方差、协方差矩阵的对角线上的元素和能解释的方差在总方差中所占的百分比。
2) Correlation Matrix选项组
在此选项组中设置所要输出的矩阵。
Coefficients复选框:如选择此项,则会输出参与因子分析的变量的相关矩阵。
Significance levels复选框:如选择此项,则会输出在相关矩阵中的相关系数的单尾假设检验的显著性。
Determinant复选框:如选择此项,则会输出相关系数矩阵的行列式。
KMO and Bartlett's test of sphericity复选框:如选择此项,则无论变量之间的偏相关是否很小,都会进行抽样充足性的 Kaiser-Meyer-Olkin 检验;无论相关矩阵是不是一个单位阵,都进行 Bartlett 圆形检验,这个检验能指出因素模型是否合理。
Inverse复选框:如选择此项,则输出相关系数矩阵的逆矩阵。
Reproduced 复选框:如选择此项,则输出因子分析后估计的相关矩阵。残差(相关系数的估计值与观测值之间的差)也同样会输出。
Anti-image复选框:如选择此项,则会输出逆影像相关矩阵,它包括偏相关系数的求负、包含偏方差的负值的逆影像方差矩阵。在一个好的因子模型中,绝大多数非对角线元素都比较小。在逆影像相关矩阵的对角线上还包含了抽样充足性检验。
2. Extraction按钮
单击Extraction按钮,即可打开Factor Analysis: Extraction(因子分析:提取因子)对话框,如图1-102所示。
图1-102 Factor Analysis: Extraction对话框
1) Method下拉列表框
在此下拉列表框中可以设置提取因子的方法。
Principal components选项:如选择此项,则会使用主成分分析法来提取因子。主成分分析法用来观察变量的不相关的线性组合。第一成分有最大的方差。随后的成分可以解释的方差越来越小,而且这些成分之间是不相关的。主成分分析用于获得初始因子分析的结果。
Unweighted least squares选项:如选择此项,则使用未加权最小平方法来提取因子。未加权最小平方法在忽略对角线元素的情况下,最小化相关矩阵和再生矩阵差值的平方和。
Generalized least squares选项:如选择此项,则使用综合最小平方法来提取因子。综合最小平方法最小化相关矩阵和再生矩阵差值的平方和。相关性用它们值的倒数加权,以便有高的值的变量有较低的权。
Maximum likelihood选项:如选择此项,则使用极大似然估计法来提取因子。极大似然估计法生成一个参数的估计,如果样本是取自多维正态分布,这个参数估计是能产生观测的相关矩阵中有最大概率的一个。相关性是使用变量值的倒数进行加权,还使用了迭代算法。
Principal axis factoring选项:如选择此项,则使用主轴因子法来提取因子。主轴因子法使用多元相关的平方作为对公因子方差的估计值。
Alpha factoring选项:如选择此项,则使用α因子法来提取因子。α因子法最大化因子的α依赖度。
Image Factoring选项:如选择此项,则使用多元回归法来提取因子。它是由Guttman在影响理论的基础上建立起来的。变量的公共部分(被称为偏影像)被定义为残余变量的线性组合,而不是作为假设因子的函数。
2) Analyze选项组
该选项组用于确定相关矩阵和协方差矩阵。
Correlation matrix单选按钮:如选择此项,则分析相关矩阵来作为提取因子的参考。
Covariance matrix单选按钮:如选择此项,则分析方差矩阵来作为提取因子的参考。
3) Extract选项组
该选项组用于控制提取过程和提取结果。
Eigenvalues over单选按钮:为系统默认选项,如选择此项,则提取特征值大于1的因子或特征值大于平均方差的因子。用户可以设置因子提取的阈值。
Number of factors单选按钮:如选择此项,则提取用户指定数量的因子而不考虑其特征值的情况。
4) Display选项组
该选项组用于指定与因子提取相关的输出项。
Unrotated factor solution复选框:如选择此项,则输出未经旋转的因子提取结果、因子解的特征值。
Scree plot复选框:如选择此项,则输出与每一个因子相关的方差的散点图。它用于确定应保留多少因子。一般而言,散点图都会有一个拐点,在此点之前是大因子,而此点之后是小因子。
5) Maximum Iterations for文本框
在该文本框中设置因子分析的最大迭代次数,系统默认的最大迭代次数为25。
3. Rotation按钮
在主对话框中单击Rotation按钮,即可打开Factor Analysis: Rotation对话框,如图1-103所示。
图1-103 Factor Analysis: Rotation对话框
1) Method选项组
在此选项组内选择旋转方法。
None 单选按钮:如选择此项,则不进行因子旋转。该项为系统默认选项。
Varimax 单选按钮:如选择此项,则使用正交旋转方法。它将每一个有最大负荷的因子的变量数最小化。
Direct Oblimin单选按钮:如选择此项,则使用斜交旋转方法来对变量进行旋转。
Quartimax单选按钮:如选择此项,则使用四分旋转方法来对变量进行旋转。
Equamax单选按钮:如选择此项,则使用全体旋转方法,对变量和因子均进行旋转。
Promax单选按钮:如选择此项,则使用斜交旋转方法,对变量和因子均进行旋转。
2) Display选项组
在此选项组内选择输出哪些结果。
Rotated solution复选框:为系统默认选项,用户在选择一种旋转方法之后,这一项才是可选的。对于正交旋转,将输出旋转后的模式矩阵和因子转换矩阵。对于斜交矩阵,将输出模式、结构和因子相关矩阵。
Loading plot(s)复选框:如选择此项,则输出前三个因子的因子载荷散点图。对于二维因子的解,将输出一个二维散点图。
3) Maximum Iteration for文本框
在此文本框中设置旋转收敛的最大迭代次数。系统默认值为25。
4. Scores按钮
在主对话框中单击Scores按钮,即可打开Factor Analysis: Factor Scores(因子分析:因子得分)对话框,如图1-104所示。
图1-104 Factor Analysis: Factor Scores对话框
该对话框中的选项说明如下。
1) Save as variables复选框
如果选择此项,则将因子得分作为一个变量保存起来。对分析结果中的每一个因子都会生成一个新变量。输出中的表将指示出每一个新变量的名字和变量标签(用于指示使用于因子得分的方法)。
2) Method选项组
在此选项组内选定计算因子得分系数的方法。但是,只有选中Save as variables复选框后,该栏才会被激活。
Regression 单选按钮:如选择此项,则产生的因子分值均值为0,而方差等于估计因子值与真实因子值多元相关的平方。
Bartlett单选按钮:如选择此项,则产生的因子分值为0。超过变量范围的各因子值的平方和被最小化。
Anderson-Rubin 单选按钮:如选择此项,则采用修正的 Bartlett 方法。其产生分值的均值为0,标准差为1,且是不相关的。
3) Display factor score coefficient matrix复选框
如选择此项,则输出因子得分系数矩阵,还输出因子得分的方差矩阵。
5. Options按钮
在主对话框中单击Options按钮,即可打开Factor Analysis: Options(因子分析:选项)对话框,如图1-105所示。
图1-105 Factor Analysis: Options对话框
该对话框中的选项说明如下。
1) Missing Values选项组
在此选项组内选择缺失值的处理方法。
Exclude cases listwise单选按钮:如选择此项,则在进行检验时,对有默认值的观测,在任何分析中都排除掉。该选项为系统默认选项。
Exclude cases pairwise单选按钮:如选择此项,则对参与计算的变量如有默认值,则不考虑带有默认值的观测。
Replace with mean单选按钮:如选择此项,则将默认值用变量的均值来代替。
2) Coefficient Display Format选项组
此选项组内选择系数的显示格式。
Sorted by size复选框:如选择此项,则将因子负荷和结构矩阵排序以便将同一个因素的高负荷的变量排在一起。
Suppress absolute values less复选框:如选择此项,则只显示绝对值大于某个阈值的负荷系数。系统的默认设置是0.10,用户可在后面的文本框中自己设定,但要注意,所设定的值一定要在0~1之间。
所有设置结束后,单击OK按钮,执行因子分析。
1.9.2 主成分分析
主成分分析是由Hotelling于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标,即主成分。每个主成分都是原始变量的线性组合,且各主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。主成分分析不能被看作是研究的结果,而应该在主成分分析的基础上继续采用其他多元统计方法来解决实际问题。
在对某一个问题进行实证研究时,为了更全面、准确地反映出这个问题,人们往往要考虑与其有关的多个指标,也就是变量。这就产生了两个问题:一方面人们为了避免遗漏重要的信息会考虑尽量多的指标,而另一方面随着指标的增多研究问题的负载程度会增加。此外,由于各指标都是对同一个问题的反映,不可避免地就会造成信息的重叠,引起变量之间的共线性。因此,由于多个变量之间往往存在一定程度的相关性,研究者自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。
主成分分析的基本步骤是:首先,结合数据,判断是否需要进行主成分分析;其次,进行分析,结合主成分的累积贡献率和特征值来确定提取的主成分或因子的数目;然后,进行主成分分析,将提取出的主成分存为新变量,以便继续分析。
主成分分析也是通过在主菜单栏中选择Analyze→Data Reduction→Factor命令来实现,其基本操作与因子分析相同。