第一节 变 量
从数据库、数据分析的角度来看,变量是指能反映数据库数据的内在数量关系、可用于统计计算(包括软件计算)的指标。一般而言,不同的研究目的决定了不同的数据库,实际上决定了组成数据库的不同变量。
弄清楚变量类型及其转换关系是应用统计分析的重要内容。
一、变量的类型
变量分为分类变量和数值变量两种类型。
分类变量(categorical variable),又称定性变量(qualitative variable),是指用定性方法确定的、说明观察单位某项属性特征或类别的指标。
在有关分类变量的统计分析中,由于选择的统计方法与分类变量的分类个数、分类类别之间是否存在等级或程度差异等有关,因此根据分类变量的分类项数和各项数间有无等级程度差异分为二项分类变量(包括二项无序分类变量和二项有序分类变量)、多项无序分类变量和多项有序分类变量,见表2-1。
数值变量(numerical variable),又称定量变量(quantitative variable),是指用定量方法测定、具有数值大小(高低或多少)的指标,变量值一般有度量衡单位,可以带小数点,如身高、体重、血压等。
从应用统计分析选择统计方法的角度考虑,变量可分为二项分类变量、多项无序分类变量、多项有序分类变量和数值变量4种类型。
二、变量的转换
一般而言,不同类型变量可遵循下列顺序转换:数值变量→多项有序分类变量→多项无序分类变量→二项分类变量,称为降级转换,简称降级。如某科学生的考试成绩用具体分数表示(张三95分、李四88.5分……)是数值变量;当≥90分为优,≥75分且<90分为良,≥60分且<75分为中,<60分为差时,划分为等级的考试成绩属于多项有序分类变量;当然,如果研究者把优、良、中、差的考试成绩都同等看待(即没有高低大小的等级差别),则视为多项无序分类变量;如果把<60分的视为不及格、≥60分的记为及格,则考试成绩为二项分类变量。
注意的是,这种降级转换过程会不断丧失变量本身蕴藏的数据信息,导致统计分析过程中假阴性结果的增加。至于逆向转换即升级转换,尽管理论上认同,但实际应用中不可行,不建议采用。