第九节 多变量数据分析
多变量数据分析方法(multivariate data analysis methods)不仅越来越广泛地适用于学术研究领域,而且还越来越多地适用于解决实际存在的具体问题。最近,在心理学、社会学、行为科学等研究领域,多变量数据分析方法都得到了关注,尤其是随着大数据和云计算的出现,人类进入了移动互联网和物联网智能时代,人们不像过去那样停留在信息量受限和信息不对称的传统IT时代,而迎来了崭新的DT(Data Technology,数据处理技术)时代。从20世纪90年代到如今,人类经历了模拟技术、数字技术、智能技术等信息技术发展的不同阶段,先后出现了类似于模拟手机、数字手机、智能手机等象征着不同信息技术发展阶段的质的飞跃的产品。大数据时代的到来,使得政治、经济、社会等多领域学科门类发生了本质性变革。大数据时代正在影响人们的价值体系,影响人们的知识结构,影响人们的生活方式。
人类学家克利福德·吉尔兹(Clifford Geertz)在《文化的解释》中指出,努力在可以应用、可以拓展的地方应用、拓展大数据;在不能应用、不能拓展的地方就停下来。这应该是所有人面对一个新领域或新概念时应有的态度。我们可以从以下三者之间的关系来看待如今的大数据时代:望远镜与宇宙,显微镜与微生物,大数据与人们的世界观和生活方式。我们可以通过望远镜感受宇宙,通过显微镜观测微生物,通过大数据悟得“时—空—人”观。
一、多变量数据分析方法
1.变量数据相关分析或多变量数据回归分析
只要能够确定和测定研究领域内涉及的代表数据的变量维度及变量度量,我们就可以采用各种类型和版本的统计软件来分析变量(数据)之间存在的相关关系,或者一个因变量与多个自变量之间存在的因果关系。
2.多变量数据判别分析
只要能够确定和测定调研者研究领域所涉及的代表数据的变量维度及变量度量,我们就可以采用各种类型和版本的统计软件来进行多变量数据判别分析,即在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属。多变量数据判别分析的基本原理是按照一定的判别标准来建立一个或多个判别函数,并用研究对象的大量数据资料来确定判别函数中的待定系数,以便计算出判别指标。在因变量是属于品质变量的情况下,我们一般采用多变量数据判别分析方法。
3.多变量数据典型相关分析
这是把多变量数据回归分析合乎逻辑地进行扩大的一种分析方法。多变量数据回归分析是调查一个因变量(数量变量)与多个自变量(数量变量)之间关联性的统计方法,而多变量数据典型相关分析则是调查多个因变量(数量变量)与多个自变量(数量变量)之间相关关系的统计方法。也就是说,多变量数据回归分析适用于单个因变量的数据资料,而多变量数据典型相关分析则适用于多个因变量的数据资料。
4.多变量数据因素分析
这是把很多变量放在一起来分析它们之间存在的相互关联性的统计分析方法。主要用来考查说明这些变量之间存在什么样的共同因子的一种统计方法,分为主成分分析与共同因素分析两种方法。
5.多变量数据聚类分析
这是通过数据建模简化数据的一种方法。多变量数据聚类分析主要应用于探索性研究,是一种将研究对象分为相对同质的群组的统计分析方法。多变量数据聚类分析是依据研究对象的特征,对研究对象进行分类的方法,它可以减少研究对象的数目。
二、多变量数据的类型及多变量数据的度量尺度
调研者在采用多变量数据分析方法时,首先要考虑的问题是这些多变量数据资料是否可分为自变量和因变量。对可分为自变量和因变量的多变量数据资料,我们可以实施因果关系分析方法;对不可分为自变量和因变量的多变量数据资料,我们可以实施相关关系分析方法。不管是自变量数据资料还是因变量数据资料,我们一定要事先对这些多变量数据资料进行概念定义,并对这些多变量数据进行度量尺度的测定。变量主要分为两种类型,即数量变量和品质变量。数量变量是指可以用数值表示的变量,品质变量是指不能用数值表示的变量。多变量数据的度量尺度主要分为四种,即定类度量尺度、定序度量尺度、定距度量尺度、定比度量尺度。
定类度量尺度是对数据进行分类得到的度量尺度,如按性别分为男、女,按年龄分为老、中、青;定序度量尺度是对数据进行排序得到的度量尺度,如按成绩先后分为第一、第二、第三等;定距度量尺度是按标准对数据进行测量,或使用工具测量后得到的数据,有绝对零点的数据如长度、重量,有相对零点的数据如温度、成绩、智商等;定比度量尺度是测量不同变量之间的比例或比率关系的度量尺度。
多变量数据资料的类型及其适用的度量尺度,如图2-13所示。基于多变量数据资料和变量的不同类型所采用的多变量数据分析方法,如图2-14所示。
图2-13 多变量数据资料类型及其适用的度量尺度
图2-14 基于多变量数据资料和变量的不同类型所采用的多变量数据分析方法