第四节 统计学的基本概念
统计学作为一门独立的学科,有许多专用的术语和概念,本节将介绍统计学中广泛应用的几个基本概念和基础知识,包括同质和变异,总体、个体与样本,变量和随机变量,变量和数据的类型,统计量和参数,参数估计与假设检验,误差及频率和概率等。
一、同质和变异
同质(homogeneity)就是性质相同,它是进行统计分析的前提。统计分析是在一定数量的观察对象的基础上进行的,这一定数量的观察对象在研究的主要方面必须具有相同的性质。比如,研究某地高血压患者的生活质量,研究对象必须是同质的,即都是同一地区的高血压患者。如果不能满足同质的要求,那么研究数据就是杂乱无章的,不能得出有用的信息和结论。
当然,同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。比如,同一地区、同一年龄的男童的身高并非完全相同,而是千差万别、参差不齐的,这种参差不齐的情况就是变异(variance)。与同质的相对性不同,变异是绝对的、客观存在的,这在生物学和医学界是非常普遍的,患同类疾病的患者,病情会有轻有重,相同病情的患者用同样的治疗方法治疗,患者的预后情况也不尽一致。正是因为变异的普遍存在,统计学才得以不断地发展。统计学就是处理变异性的科学,如果生物学界的个体都是完全一样的,统计学就没有存在的必要了。
二、个体、总体与样本
个体(individual),可以是一个人、一个动物、一个家庭、一个地区和一份样品等,是科学研究的基本观察对象或者观察对象(observation unit)。
总体(population),是性质相同的所有观察对象的某种变量值的集合。如调查某地2004年正常成年男子的血红蛋白含量,观察对象是该地2004年的正常成年男子,观察对象是每个成年男子,研究总体是该地2004年正常成年男子的血红蛋白含量,同质的基础是同一地区、同一年份、同为正常成年男子。总体所包含的范围是随着研究目的的不同而变化的,根据总体中观察对象数是否已知可将总体分为有限总体和无限总体。有限总体(finite population)包括有限个观察对象单位,它是有时间和空间限制的,某地2004年正常成年男子的血红蛋白含量就是有限总体,因为这个总体在确定的时间和空间范围内包括了有限个观察对象。无限总体(infinite population)是指没有时间、空间限制的无限个观察对象组成的总体,如研究贫血患者用某种药物治疗的疗效,总体包括了所有用该药治疗的贫血患者的疗效,是没有时间和空间限制的,因而观察对象的数量是无限的,这个总体为无限总体。
医学研究中,很多总体都是无限总体,即使对于有限总体来言,如果包含的观察对象数过多,要直接研究总体也是不必要和不可能的。所以在实践中经常是从总体中抽取样本,用样本信息来推断总体特征。样本(sample)是从总体中随机抽取的部分观察对象所组成的集合。比如,从北京地区正常成年男子中随机抽取7 000人组成样本。抽样的目的是用样本信息来推断总体特征,因此要保证样本的可靠性和代表性,使样本能够充分地反映总体的真实情况。这就要求抽样要遵守随机化的原则,并保证足够的样本含量。随机抽样(random sampling)是指按照随机化的原则抽取观察对象组成样本,以避免研究者和研究对象给样本带来的偏倚。样本量(sample size)是指样本中所包含的观察对象数。
三、变量和随机变量
统计学研究变异性,变异性是通过各观察对象的某项特征或指标来反映的,因此我们要研究生物界个体的变异性,就要先确定观察对象,然后对每个观察对象的某项特征或指标进行观察和测量,这种观察对象的特征或指标就是变量(variable),观察对象中各个变量的观察结果称为变量值(value of variable)或观察值(observed value,observation),因为测量不同的观察对象会得到不同的观察结果,所以称之为变量。例如以老年人为观察对象,调查研究某地某年老年人的疾病和健康状况,年龄变量的观察结果有大有小,性别变量的观察结果有男有女,血压变量的观察结果有高有低,病情变量的观察结果有轻有重。
变异是生物个体的共有特征,反映了生物个体的不确定性。在测量观察对象的变量值之前,只知道变量值所在的可能范围,并不知道其具体取值情况,比如只知道8岁男童的身高可能在50~150cm的范围内,但不能确定某个男童的具体身高,正是因为变量的这种不确定性,概率论中将其称为随机变量(random variable)。
四、随机变量及数据的类型
根据变量的测量结果不同可以将其分为数值变量、定性变量和等级变量三大类。一组变量值统称为数据(data),研究数据根据其性质可以分为定量数据、定性数据和等级数据。
1.定量变量(quantitative variable)
也称数值变量(numerical variable),是用仪器、工具或其他定量方法进行测定或衡量所取得的数据。其变量值是定量的,表现为大小不等的数值,一般带有度量衡单位。如,身高(cm)、体重(kg)、白细胞计数(109/L)、血压(kPa)、龋齿个数等。由一组同质的定量变量值所组成的数据称为定量数据,定量数据的各个观察值之间有量的区别,没有性质的不同。
2.定性变量(qualitative variable)
也称分类变量(categorical variable),其变量值是定性的,表现为互不相容的类别或属性。各观察对象之间一般没有量的区别,但有质的不同。
如果变量只有相互独立的两种属性,称为二分类变量(binary variable),如人的性别有男或女,检查乙肝表面抗原的携带情况有阳性或阴性,癌症患者结局有生存或死亡等。如果变量的观察结果表现为相互独立的多种属性,称为多分类变量(polytomous variable),比如血型分为相互独立的四类:A型、B型、O型和AB型,肺癌可分为腺癌、鳞癌、腺鳞癌、未分化癌、类癌和支气管腺癌等,各类之间只有性质的不同,没有大小和程度上的差别。
由一组同质的定性变量值所组成的数据称为定性数据(qualitative data),定性数据也可以由按照定性变量值的属性分组,然后清点各组的观察对象个数得到,亦称为计数数据(count data)。
3.等级变量(ranked variable)
也称有序变量(ordinal variable),等级变量可以体现程度上的不同,但是不能精确地测量相邻的两个变量值之间的差别,通常等级变量有两个以上的等级。比如患者的预后情况可分为治愈、显效、好转、无效和恶化五级,医生对患者的总体疗效评价可分为很好、好、一般和差四级,癌症的病理分级为Ⅰ级、Ⅱ级和Ⅲ级。
由同质的有序变量值组成的数据称为等级数据(ranked data),它是介于定量数据和定性数据之间的半定量观察结果。等级数据也可先将观察对象按照各个等级分组,然后清点各组观察对象的数目得到。
五、统计量和参数
在科研工作中,通过对样本中观察对象的变量值进行统计分析所得到的统计指标称为统计量(statistic)。例如为了调查某地2004年正常成年男子的血红蛋白含量,随机抽取240人组成样本,他们的血红蛋白含量的平均值就是一个统计量,样本回归系数、样本标准差、样本率等也是统计量。
参数(parameter)是反映总体特征的统计指标。如果样本的代表性好,那么统计量与相应的参数的数值就非常接近,就可以用样本统计量来估计总体参数,所以样本的统计量也称为参数的估计值。例如用样本均数、样本回归系数、样本标准差和样本率来估计总体均数、总体回归系数、总体标准差和总体率。
六、参数估计与假设检验
参数估计和假设检验是统计推断的两个重要领域。
1.参数估计(parameter estimation)
是在总体参数未知时,用样本统计量来估计总体参数,它包括点估计和区间估计。点估计(point estimation)是给出被估计参数一个适当的估计值,即样本统计量;区间估计(interval estimation)是按照预先给定的概率,给出未知参数可能的数值范围。
2.假设检验(test of hypothesis)
是先对总体参数或总体分布作出某种假设,如假设两个总体率相等,或总体服从某种分布等,然后用适当的检验方法根据样本信息,推断应当拒绝或不拒绝此假设。根据其假设是针对参数还是分布,假设检验可分为参数检验和非参数检验,参数检验如t检验、方差分析等;非参数检验如秩和检验、卡方检验、游程检验等。
七、频率和概率
(一)频率
1.频率的定义
在相同的条件下,进行了n次实验,在这n次实验中,事件A发生的次数nA称为事件A发生的频数,fn(A) = nA/n称为事件A发生的频率(frequency),0 ≤ fn(A) ≤ 1。频率的大小反映了事件A发生的频繁程度,频率大,则事件A发生频繁,这意味着A在一次实验中发生的可能性就大,反之亦然。
2.频率的稳定性
大量实验表明,当重复实验的次数n逐渐增大时,频率fn(A)将呈现出稳定性,并逐渐稳定于某个常数,这个常数是客观存在的,这就是频率的稳定性。例如,有人进行抛硬币实验,当抛硬币次数n较小时,硬币正面朝上的频率在0到1之间随机波动,其波幅较大,但随着抛硬币次数增大,频率逐渐呈现出稳定性,频率总是在0.5附近摆动,而且重复实验的次数n越大,频率越接近0.5。
(二)概率
概率(probability)是随机事件发生可能性大小的度量,简记为P。根据频率的稳定性,当实验次数n逐渐增多时,频率将稳定在一个常数附近,这个常数就是事件A的概率。实际应用中,概率P是很难得到的,常用经大量重复实验获得的频率f作为概率P的估计值。
医学研究的现象,绝大多数是随机现象。例如用相同治疗方法治疗某病患者,只知道治疗后患者可能为治愈、好转、无效和死亡四种结果,但对一个刚入院的该病患者,治疗后究竟发生哪一种结果是不确定的。这里每一种可能结果都是一个随机事件。每个随机实验都会有几种可能结果,我们常常希望知道出现某种结果的可能性有多大,即随机事件概率P是多大。随机事件概率的大小在0到1之间,P值越接近1,表示某事件发生的可能性越大,P值越接近0,表示某事件发生的可能性越小。特别的,P = 1,表示事件必然发生,P = 0,表示事件不可能发生,他们是确定性的,不是随机事件,但可把他们看成随机事件的特例。
例如,某单位配制某种药物治疗过敏性鼻炎,陆续试用于过敏性鼻炎的患者,共计200人,其中140人用药后症状减轻,有效率为0.70或70%。这个数字是从反复实验与实际观察得来的。那么对于另一个接受此治疗的患者,预计用药后症状减轻的可能性约为0.70。
(赛晓勇 徐 涛 童新元)