1.3.2 常见的数据分析技术
计算机科学的发展,促成了许多数据统计分析软件,诸如SPSS、SAS,就连最简单的Excel,也提供了数据分析功能等。而且,随着定量研究法的普及,许多定量分析算法已经被集成到了常规的办公软件中,使定量研究中所需的数据分析算法不再神秘,诸如相关性分析、差异显著性检验(T 检验与方差分析)、归因分析、聚类分析(降维分析)、信度效度检验等算法已经成为人文科学研究中的基本方法。
1.相关性分析
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。
在统计分析学中,对两个数据序列相关性的分析主要通过相关系数和相关性检验概率两个指标来体现。相关性系数的绝对值在0~1之间,反映两列数据的关联性程度;而检验概率用于反映两列数据不存在相关性的概率值。
2.差异显著性检验
差异显著性检验也叫差异显著性检验,用于判断两个数据序列是否存在显著的差异。对于数据序列的差异性检验,分为均值差异性和分布差异性两种形式。对于具有正态分布形态的两列连续型数据,通常可检验其均值差异性,而对不明形态或非正态分布的数据,则常常检查其分布差异性。
差异显著性检验是一种推断检验。通常首先假设两列数据没有显著性差异,通过计算相应的统计量判断无显著性差异的概率值(即检验概率)。在统计学中,通常以0.05(即百分之五为标准),若两列数据的差异显著性检验概率大于0.05,则认为两列数据没有显著性的差异;反之,若两列数据的差异显著性检验概率小于0.05,则认为它们具有显著性差异。
3.降维分析
在数据统计分析过程中,常常从多个视角制作调查或评价指标,从而能够全面地反映调查对象的属性和特点。然而,在调查完成后,常常发现以下问题:多个指标项的语义有重叠,需要获得凝练的分析结论。
为此,需要对调研指标进行凝练,减少评价指标的维数,使结论变得更加易于表述和理解。这就是降维分析。
4.聚类分析
在数据统计与分析过程中,常常需要把成千上万的个案分成若干类,以便于操作。例如,可以把学生分为男生、女生,还可以把学生按照综合表现分为优等生、良好生、普通生和差生。这种依据某些因素,对个案分类的过程就是聚类分析,也叫分类。所以,分类分析就是对收集到的数据分析其内在规律和特点,把相似的数据归结为一类的过程。
在数据统计分析过程中,聚类分析可以分为针对个案(记录)的分类和针对变量(字段)的分类。针对变量的聚类过程实际上也是一种降维过程。