第三节资料的整理与分析_现场流行病学-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

第三节　资料的整理与分析

资料分析前，首先应对资料进行审查，了解资料的正确性与完整性。对有明显错误的资料应进行重新调查、修正或剔除；对不完整的资料要设法补齐。在此基础上，先对资料做描述性统计，即描述研究对象的组成、人口学特征、随访时间及失访情况等，分析两组的可比性及资料的可靠性，然后才做推断性分析。做推断性分析前，需要明确评价效果的主要指标，然后分析两组结局的差异，计算效果指标，推断干预措施的效果及其大小。

一、资料整理

资料整理是资料分析的首要步骤，其目的是对研究资料的完整性、规范性和真实性进行核实，对变量进行编码、录入，然后依据研究目的对资料做出取舍和归类，使其系统化和条理化。需要注意的是，对进入研究的所有对象的资料都应该进行整理，与研究目的相关联的正反两方面资料都应当选取，不能只选用与预期结果相符合的所谓“有用资料”，而舍弃与预期结果不符的资料。报告研究结果时，需要说明退出和缺失资料情况。

（一）数据的准备

1.变量的编码

虽然现在大多数现场干预研究的问卷上已设计好了“预编码”答案，但对一些“开放性问题”或超出“预编码”的答案仍需要再编码。一种方法是由访问者或监管员在问卷完成之后的当天进行编码。这样做的同时也对当天的调查结果做了一次检查。计量资料有时需要重新编码为分类变量，这种变量的转换有两个基本原则：①如果有国际标准或公认的标准，则按标准转化，如血压可按标准转化为正常血压、正常高值血压和高血压3类；②如果没有标准可依，则依观察数的多少分为3～6个类别，大型研究可多分几类，每一类应包含合理的观察人数（至少是总数的10%）。在决定大概的组数之前，最好检查一下原始资料的分布。分类变量有时也需要重新编码，如原始为痊愈、好转、无效和死亡的分类资料，可转化为有效（包括痊愈和好转）和无效（包括无效和死亡）两类。重新编码后，建议将重新编码的变量命名为新变量名以便于存贮。如“AGE”重新编码分组后的变量可称“AGEGP”。

2.资料的录入

与核对编码完成后，应尽快进行录入。这样一方面可减少资料丢失的机会，另一方面也可以尽早用计算机进行逻辑检查，发现错误，立即纠正。每组资料一般应录入“两次”。两次录入应相互独立，最好由不同的人员录入。然后，应用程序在计算机里进行两次录入文件的比较。以杜绝录入错误。资料录入后可运行程序进行范围和一致性检查。范围检查适用于每一项数据，以核实录入的数据在容许范围之内，如：性别的编码只能是“M”或“F”，身高大于2.5m将被视为错误。一致性检验是找出不同变量之间的矛盾，如一个人为男性却进行哺乳，成年人患只有儿童才会有的疾病等都是不可能出现的。

3.计算新变量

经常需要利用两个或多个已有变量建立新变量，这些新变量可直接计算（如人均收入），或者通过与给定标准比较后获得（如利用BMI进行肥胖的分类）。通过计算组成新变量后，应检查新变量的分布是否合理。

4.几个文件资料的合并

现场干预研究很多是多中心的，经常需要对不同研究点的文件资料进行合并。有时为了进行某种特殊分析，需要合并各种原始文件中的必要内容。

（二）几类退出对象的资料处理

1.不合格（ineligibility）的研究对象

包括不符合纳入标准者（初次纳入后才发现不符合标准）、完全没有接受干预措施或没有任何数据者。这类研究对象在资料整理时应剔除。

须注意的是，在干预研究时，研究者对干预组往往观察仔细，因此干预组中的不合格者比较容易发现，结果造成不合格而被剔除的人数多于对照组。另外，研究者对某些研究对象的反应的观察与判断可能有倾向性，如对效果差者可能特别注意，造成更易于从中发现其不符合标准并将其剔除，而留在组内的往往是效果较好的研究对象，由此而得出的结论往往比实际的效果要好。为了防止因对研究对象的剔除造成偏倚，有的学者主张在随机分配后发现不符合标准者，可根据入选标准将研究对象分为“合格者”和“不合格者”两个亚组分别进行分析，如果两者结果不一致，则在下结论时应慎重。

2.不依从（noncompliance）的研究对象

指研究对象在随机分组后，不遵守干预研究所规定的要求。干预组成员不遵守干预规程，相当于退出（withdrawal）或脱落（drop-out）干预组，对照组成员不遵守对照规程而私下接受干预规程，相当于加入（drop-in）干预组。研究对象不遵守干预规程的原因一般有以下几种：①试验或对照措施有副作用；②研究对象对试验不感兴趣；③研究对象的情况发生改变，如病情加重等。不依从的对象不要随便剔除，在资料整理时可以根据研究对象的依从性分组进行分析。

3.失访（loss

to follow-up）的研究对象指研究对象因迁移或与本病无关的其他疾病死亡等造成失访。在现场干预研究中应尽量设法减少失访，一般要求失访率不超过10%。

在资料收集、整理和分析时，应考虑两组失访率的差异。若失访率不同，则资料分析结果可能产生偏倚。即使两组失访率相同，但失访原因或失访者的特征不同，两组预后也可能不同。因此，需对两组失访者以及失访者和未失访者的特征进行比较。如果失访者和未失访者的特征分布相同，则失访对结果的影响可能较小；否则，失访对结果的影响可能较大，解释结果时要慎重。

不合格、不依从、失访均可导致原定的样本量不足、破坏原来的随机化分组，使研究工作效力降低。如果不合格、不依从、失访在实验组和对照组分配不均衡，更会对研究结果的真实性产生影响。

（三）现场干预研究资料的基本整理模式

根据统计分析的要求，现场干预研究的资料一般整理成表6-1的模式。式中 a/ n ₁和 c/ n ₀分别为干预组的结局事件发生率和对照组的结局事件发生率，是统计分析的关键指标。

表6-1　现场干预研究资料归纳整理表

二、评价效果的主要指标

评价现场干预的效果要设定主要的效果指标。不同的研究由于研究目的不同，考核或评价用的指标也不同。现场干预研究常用于评价干预措施对一般人群疾病预防和控制的效果，常用的指标有保护率、效果指数、抗体阳转率、不良事件发生率、相对危险降低率、绝对危险降低率和需要治疗的人数等。另外还可包括一些卫生经济学的评价指标。

1.保护率（protective rate，PR）

主要用于预防性试验中，在治疗性试验中常用相对危险降低度（relative risk reduction，RRR）这个名词，两者的含义和计算相同。

（公式6-1）

（公式6-2）

n ₁、 n ₂分别为对照组和干预组人数

p ₁、 p ₂分别为对照组和干预组发病率； q ₁ = 1 - p ₁， q ₂ = 1 - p ₂

2.效果指数（index of effectiveness，IE）

（公式6-3）

3.抗体阳转率

（公式6-4）

4.不良事件发生率（adverse event rate）

（公式6-5）

5.绝对危险降低度（absolute risk reduction，ARR）

等于绝对危险度（absolute risk，AR）。

（公式6-6）

6.需要治疗的人数（number needed to treat，NNT）

（公式6-7）

在评价治疗或预防疾病措施效果的实验研究中，NNT表示在特定时间内，为防止1例某种不良结局或获得1例某种有利结局，用某种干预方法处理所需要的人数，NNT值越小越好。例如，在一项应用麻疹疫苗预防麻疹的现场干预研究中，如果对照组的麻疹发生率为20%，干预组的麻疹发生率为1/万，则该干预措施的绝对危险降低度ARR约为20%，NNT = 1/ARR = 1/20% = 5，即用麻疹疫苗每干预5个易感者，可防止1例麻疹发生。如NNT为负数，表示在特定时间内，用某种干预引起1例某种不良事件发生所需要的人数（number needed harm，NNH），NNH用于评价干预措施造成的有害效应，NNH的绝对值越大越好。

此外还可采用卫生经济学指标进行评价，常用的有成本效果比、成本效益比及成果效用比等。

如果结局变量是计量资料，则效果指标也可以是计量的，如孕妇补碘现场干预研究的结局变量是儿童智商，效果指标可以是干预提高的智商量；儿童补铁现场干预研究的结局变量是儿童血红素含量，则效果指标可以是干预提高的血红素含量等。

三、资料分析

（一）统计描述

统计描述即描述研究对象的组成、人口学特征、随访时间及失访情况等。值得注意的是，在现场干预研究报告中，必须清楚交代研究对象的组成及其变化（退出与失访等）、变化的原因以及变化在两组中的分布，进而分析两组的可比性及资料的可靠性。在此基础上，用统计指标、统计表、统计图等方法，对结局资料的数量特征及分布规律进行测定和描述，如计算两组的疾病发病频率及死亡频率等。

（二）统计推断

从干预研究获得的结局变量指标和效果指标都是特异样本的样本值，因此需要应用统计学的方法推断这些指标的总体参数的估计值，并进行显著性检验和置信区间的估计。不同的设计类型和数据类型，所采用的统计分析方法不同。表6-2、表6-3和表6-4列举了一些对常用设计类型中的不同数据类型适用的显著性检验方法及其应用条件。

表6-2　计量资料的常用显著性检验方法

表6-3　计数资料的常用显著性检验方法

n.样本量；p.样本率；T.四格表或列联表中各格子的理论数；b和c.不同对的对子数

表6-4　等级资料的常用显著性检验方法

上述方法适合于以个体为分析单位的随机对照试验。如果现场干预研究是群组随机对照试验，当分析单位是群组时，可以采用上述的常规统计分析方法。但以个体为分析单位时，则须考虑群内相关系数大小对研究效应的影响，否则，会出现P值偏小和置信区间偏窄的现象，导致Ⅰ型错误增加。在实际工作中，可根据研究目的、研究设计和资料类型选择一些能有效调整群内相关效应的方法，如调整 χ ²检验、Permutation检验、随机效应模型、随机系数模型、贝叶斯分层模型、广义估计方程、多水平模型、方差分析/协方差分析混合模型等。

对于非随机对照试验，为控制混杂，在分析时一般也不宜直接采用常规的统计方法进行分析，可选择分层分析、回归分析、贝叶斯模型、倾向评分（propensity scores）分析等方法。

对现场干预措施的效果评价，不但要看其是否有统计学意义，更重要的是要评价其实际公共卫生意义。只有具有实际公共卫生意义的干预措施才是值得推广的。例如，对于一项评价预防疾病措施的干预研究，如果研究结果表明保护率等于25%，而另一不良事件的发生率也为25%，尽管两组差异有统计学意义，显然该措施是不能推广的。再如某一社区高血压预防试验，干预措施使干预组的血压平均下降了3mmHg，即使该结果有统计学意义，其公共卫生意义也不明显。