第二节 误差理论及控制
统计学研究中,将观察值(实际值)与真实值(理论值)之差称为误差(error)。由于生物个体的变异性等原因使得误差在医学领域中广泛存在,误差按其产生的原因和性质可分为过失误差、系统误差和随机误差三类,不同的误差应采取不同的方法进行控制。
一、过失误差
过失误差(gross error)是由于观察者的错误造成的误差,比如观察者记录错误,计算错误,数据核查、录入错误,度量衡单位错误,甚至故意修改数据导致的错误。过失误差在统计学研究中是不允许的,必须通过加强调查、录入和分析人员的责任心,完善检查核对制度等方法来避免和消除过失误差,以保证数据和结果的真实性。
二、系统误差
系统误差(systematic error)又称为偏倚(bias),是实验因素之外的某些非实验因素干扰造成的实测值与真值之差。系统误差的产生原因复杂,主要是由于设计人员、受试者、观察者、研究者、仪器设备、研究方法及外部环境的非实验因素等原因的影响造成的有一定变化规律的误差。测量值呈现一定的方向性,不能通过统计方法来加以控制,所以对研究结果的影响很大。但是系统误差一般是恒向、恒量的,且有其特定的变化规律,故可以通过严格、科学的实验设计将其减小或控制在最小范围之内。偏倚主要有两类:
(1)选择偏倚(selection bias):
又称为引入偏倚,常出现在研究初始阶段或引入研究对象的各个阶段。这是由于受试对象未能按照纳入标准随机分配进入实验队列。
(2)测量偏倚(measurement bias):
主要由于实验条件、操作标准与方法以及主观方面等因素所造成,可能发生在正式研究的全部测定过程或观察过程。
实验设计的目的就是在于控制和降低系统误差对实验结果的影响,减少随机误差以利于进行统计推断,提高研究的效率。
三、随机误差
随机误差(random error)是排除过失误差、系统误差之后尚存在的误差,它由多种无法控制的因素引起,大小和方向是随机变化的。尽管随机误差是不可避免的,但其以零为中心呈正态分布,所以可以利用概率统计学的方法对随机误差进行估计。随机误差包括抽样误差和随机测量误差两类。
(1)抽样误差(sampling error):
是由于样本的随机性而产生的误差。在随机抽样研究中,抽样误差体现在样本统计量和总体参数之间的差异。
(2)随机测量误差(random measurement error):
指在同一条件下对同一观察单位的同一指标进行重复测量所产生的实测值与真值之差。由于医学科学技术水平的限制,随机测量误差目前也是无法避免的,只能尽量提高仪器设备的准确性和精密性来控制随机测量误差在容许的范围之内。例如某医师同一时间段多次测定同一患者的血压,这种多次重复测量获得的数据是不同的,如果我们假定在一个较短的时间内人的血压不会发生变化,此时多次重复得到的血压的观测值之间的差异是由于测量误差造成的。