第四节 变量类型和测量尺度
在社会科学研究中,一些专业术语被用来描述不同类型的变量。一个变量可以是能够被编码和取多个值的任何事物(例如,收入、性别、年龄、身高、态度、抑郁度程度的测量分数等)。相反,一个常量指的是在样本中只能取一个值。例如,如果一个样本中的所有成员都是男性,那么“性别”就是一个常量。变量的类型分为定量变量(连续变量)或者定性变量(离散变量)。定量变量表明某种数量程度的高低或多少。例如,身高是定量变量,因为值越大表示身高越高。相反,定性变量的取值与质量的高低并无关系。如果我有一项研究是关于比较不同地区北京、上海、广州三个城市人们的饮食习惯,那么我们的地区变量取三个值(1=北京,2=上海,3=广州),注意:这里的值“3”只是为了区分这个取值与另两个的不同,并不代表这个值更大。这里取值的“标签”仅代表地区的不同,并不代表数量上的差异。在社会科学研究中,经常被使用的定性变量是二分类变量,这一类变量只有两个不同的分类(例如,男性和女性)。
大部分统计学书籍把四类不同测量尺度的变量分为:定类变量、定序变量、定距变量、定比变量。定类变量是指:变量取值标签是用来定义那些无需计重、计数的变量的测量水平。例如,学者们常常希望探究男性和女性是否在某些变量(如收入)上存在差异。如果运用统计软件进行统计分析,性别这个变量需要被赋值,以代表不同的组别(男性或者女性)。例如:男性可以被赋值“0”,女性可以被赋值“1”。在这个例子里,值“1”并不代表比值“0”在数量上更多/高,仅用于标记或区分或指定不同的组别(男性或是女性)。
对于定序变量,取值是要被计分的。如果我想了解中国最富有的10个人,那么首富将被赋值为“1”,第二富有的人将被赋值为“2”,依次排下去直到“10”。值得注意的是这个打分系统告诉我们:这10个人中的每个人的赋值都体现着他们和别人的排位关系,但是这里的赋值并没有告诉我们任两个赋值之间的实际差距有多少,即马云和丁磊在财富上的差距有多少。所以,我们仅仅知道首富的财富比第二位的财富多,但是我们并不知道究竟多了多少。不同的是,当使用定距变量和定比变量时,我们不仅知道不同赋值测量尺度的高低排位,也会知道不同排位之间的差距大小是多少。例如,如果我们知道我们的样本中,第一个人的身高是1.75米,第二个人的身高是1.80米,第三个人是1.70米,那么我们就知道谁是最高的,而且我们也知道每个成员的身高比别人高多少或者低多少。由于这里身高变量的测量尺度是米,而且这个测量尺度是等距的,所以身高这个变量被定义为定距变量,同时提供位置关系信息和距离信息。定距变量和定比变量在提供这两方面信息上是一致的。不同的是,定比变量还有一个有实际意义的“0”值(例如气温)。图1.1解释了定序变量和定比(定距)变量之间的差异。
图1.1 定序变量和定比(定距)变量之间的差异