三、统计学中的几个基本概念
(一)同质与变异
1.同质(homogeneity) 指观察单位间被研究指标的影响因素相同。由于被研究指标的影响因素往往难以完全控制,甚至未知,因此,在实际工作中观察单位的同质是指对被研究指标影响较大的、可以控制的主要因素相同或基本相同。如研究某地区儿童的身高,则要求影响身高这一指标的主要因素(如年龄、性别、民族)要相同,而不能控制的因素(如遗传、营养等)可不要求相同。同质是相对的,对于身高指标,成年男女有别不同质;对于脉搏指标,成年男女则是无别同质。
2.变异(variation) 指在同质基础上各观察单位间某观察指标的差异。医学研究,在同类的对象中往往存在着变异,如同为健康人,即使是性别与年龄相同,他们的身高、体重、脉搏、血压、体温、肺活量等生理生化指标数值都会有所不同;同为某病的患者,其病情、病程也各自有所差异;对病情相同的患者,用同一种疗法治疗,有的治愈,有的显效,有的无效。同质下的变异才具有可比性。
(二)总体与样本
1.总体(population) 是根据研究目的所确定的同质观察单位的全体。观察单位是指被研究的总体中的某个单位,即个体。例如,描述某地40岁以上男性血脂水平,则该地所有40岁以上的男性居民的血脂测量值就构成所描述的总体,该地每个40岁以上的男性血脂测量值就是一个观察单位,即个体。
根据研究目的,有些总体观察单位数是有限或可知的,称为有限总体;有些总体的观察单位数是无限或不可知的,称为无限总体。对无限总体中每个个体一一考核是做不到的;对观察对象具有危害与损伤的总体每个个体一一考核是不允许的;对个体数量很大的有限总体一一考核则需花费较多的人力、物力、财力和时间。所以,对总体特征与性质的认识一般情况下不是采用逐一考核的方法,而常常是采用抽样研究。
2.样本(sample) 是从总体中随机抽取的具有代表性个体的集合。抽样研究(sampling study)是从总体中抽取样本,通过对样本的定量或定性测量结果来推断总体。抽样研究的目的是用样本的特征正确可靠地推断总体的特征,因此样本必须具有良好的代表性。抽样研究应注意如下几点。
(1)样本含量足够大 样本含量指样本所包含的观察单位数(样本例数),常用n表示。研究资料的变异程度大小、研究方法、研究结果精确性等条件决定样本含量。
(2)遵循随机抽样原则 随机抽样是指从研究总体中按一定的概率抽取部分观察单位的方法。随机不是随便或随意,而是指研究总体中每个观察单位被抽到样本中的机会均等。统计学中常用的随机抽样方法有单纯随机抽样、系统抽样、分层抽样和整群抽样等,在进行大规模的调查研究时,可结合使用以上四种抽样方法将抽样过程分为不同阶段进行,称多阶段抽样。实现随机化的方法有多种,如抓阄、抽签、查随机数字表和利用计算机产生的伪随机数等,利用SPSS软件可实现多种统计设计的随机抽样。
(3)样本的构成分布应基本上与总体构成分布保持一致。
(三)参数与统计量
1.参数(parameter) 反映总体的统计指标称为参数,用希腊字母表示,如μ(总体算术均数)、σ(总体标准差)、π(总体率)等。
2.统计量(statistics) 反映样本的统计指标称为统计量,用拉丁字母或英文字母表示,如(样本均数)、S(样本标准差)、P(样本率)等。
对某一事物而言,总体参数是该事物本身固有的、不变的,而统计量则随着实验不同而不同,其分布是有规律的,如小样本均数服从t分布,大样本均数服从正态分布等,这些规律是统计推断的理论基础。
(四)误差
误差(error)泛指观测值与真实值之差及样本统计量与总体参数之差,主要分为非随机误差与随机误差。非随机误差包括系统误差和过失误差,随机误差包括随机测量误差和随机抽样误差。
1.系统误差(systematic error) 是指在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素等原因造成的有一定倾向性或规律性的误差。如仪器初始状态未调整到零、标准试剂未经校正所致误差。其特点为:观察值有系统性、方向性、周期性的偏离真值。这类错误可以通过严格的实验设计和技术措施消除。
2.过失误差(gross error) 是由于观察过程中不仔细造成的错误判断或记录。应认真检查核对,否则将会影响研究结果的准确性。
3.随机测量误差(random measurement error) 是指各种偶然因素(如电压、环境温度等)的影响造成对同一对象多次测定的结果不完全一样,或同一样品不同观察者之间的差异。该误差不可避免,但要控制在容许范围内。提高研究者熟练程度可以减少这种误差。
4.随机抽样误差(random sampling error) 简称抽样误差(sampling error),是由于随机抽样所引起的样本统计量与总体参数间的差异及各样本统计量之间的差异。医学现象的变异是客观存在的,因而在抽样研究中,抽样误差是不可避免的。抽样误差虽无方向性,但有一定的分布规律,是可估计、可控制的,其大小可通过计算标准误间接地反映出来。样本对总体的代表性越好,抽样误差越小;反之,抽样误差越大。抽样误差揭示样本距总体的实际值可能有多远。
(五)概率
若在相同条件控制下对某试验进行n次重复,一个事件出现的次数m和总的试验次数n之比,称为这个事件在这n次试验中出现的频率(frequency)。随着试验次数n的无限增大,该频率将趋近于一个较稳定的常数,这个常数即该事件发生的概率。在概率论上称频率收敛于概率。
1.概率(probability) 是反映随机事件发生的可能性大小的度量,用P表示,取值范围为0≤P≤1。随机事件的概率为0<P<1;必然事件的概率等于1;不可能事件的概率等于0。某事件发生的概率愈接近于1,表示该事件发生的可能性越大;反之,愈接近于0,表示该事件发生的可能性越小。
2.小概率原理 是指小概率事件在一次试验中是不大可能发生的,它是统计推断的重要原理。通常把P≤0.05或P≤0.01的随机事件称为小概率事件。对于小概率原理需要有以下两个方面的认识:一是这里的“不大可能发生”是针对“一次试验”而言,因为试验次数多了,该事件是很有可能发生的;二是运用这个原理进行统计推断时有5%或1%犯错误的可能。