医学统计学与软件实现
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第三节 定性数据的统计描述

定性数据又称分类数据、计数数据,表现为互不相容的属性或类别。计数资料的统计描述常用率、构成比、相对比等统计指标。这些指标都是通过两个指标之比来构造的,所以统称为相对数。

一、相对数

(一)比

比(ratio)又称相对比,是两个相关指标A、B的比值。计算公式为:

式中A和B可以是两个同质的指标,如新生儿的性别比;也可以是两个不同质的指标,如前面提到的变异系数等。需要注意的是,A、B两者的比值必须有专业意义,不能任意地求两个数值之比值。

(二)构成比

构成比又称构成指标,说明某一事物内部各组成部分所占的比重。常用百分数表示,计算公式为:

由公式(4-16)可见,计算构成比时,分子必然包括在分母中,其数值在0与1之间变动。如计算了每一个构成部分的构成比,则各构成比之合计为1。

(三)率

率又称频率指标,是一个具有时间概念的构成比,用于说明某一时点或某一较短时间内某现象发生的频率或强度。常用百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。主要依据习惯用法或要求计算的率保留一、两位小数。其计算公式为:

常用的率有治愈率、缓解率、复发率等。

由公式(4-17)可见,其分子也必是分母的一部分,故算得的比值也介于0与1之间。

医学中有很多率的指标,但其中有许多并不符合上述率的定义。

1.真正意义上的率

一些指标完全符合上述率的定义。例如,某幼儿园儿童腮腺炎的发病率;中草药治疗一批乙型肝炎患者,其表面抗原转阴率;肝癌患者的5年生存率以及白血病患者的1年缓解率等。

上述指标均需观察一段时间后才能得出,在该段时间内,一部分观察对象的特征可能发生改变,是一动态过程,如患者从患病至被治愈。率是相应概率的估计值,其分子是分母的一部分,数值在0~1之间波动。

2.名称为率,实质为构成比的指标

在横断面调查中常可得出某人群某病的患病率,是对该人群中该病患者比例的描述,是静态的。研究者只关心在调查时研究对象是否患病,而对于其调查前、调查后的状态并不关心。

其他类似的还有入院诊断符合率、艾滋病知识知晓率等。这些指标的特点也是分子是分母的一部分,数值也在0~1之间波动,也是相应概率的估计值。

3.名称为率,实质为比的指标

常见有两种情况,一是:分子与分母不属于同一范畴计算所得率,如婴儿死亡率,等于当年死亡婴儿数与当年活产婴儿数之比。当年死亡的婴儿不一定是当年出生,而当年活产婴儿如果在1岁以内死亡也不一定在当年死亡。二是:分子可重复计算的“率”,如计算某年某地区感冒的发病率(新发病例数与年平均人口数之比),每个人在一段时间内可以是多个新病例。虽然可以说分子是分母的一部分,但一个人在一年中可能发生多次感冒,其年发病率可能大于1,因而也不符合上述率的定义。

二、用相对数时应注意的问题

(一)防止概念混淆

虽然上述三种相对数的定义有明确的区别,但是实践中不少指标的命名十分混乱。某些指标,实质上只是相对比,其名称却是 × × 率;实践中,对于表现为相对数的统计指标,读者必须认真思考其定义,辨别其性质,切不可顾名思义。

(二)计算相对数时分母不宜过小

一般说来,当样本例数较多时,计算出来的相对数比较稳定,能够正确反映事物的真实情况。观察单位数较少时,偶然性较大,计算出来的结果可靠性差。如甲医院治疗某类患者1 000人,400人有效;乙医院治疗同类患者10人,4人有效。虽然两家医院的有效频率均可计算为40%(或0.4),但是多数人会依据经验作出这样的判断:甲医院疗效的实际水平与40%相差不会太大,而乙医院的疗效到底为多少则需进一步观察。在此情况下,直接报告原始数据更为可取。例如对乙医院,宜报告“治疗10例,4例有效”。

(三)相对数间的比较要具备可比性:主要应注意以下几个方面

1.观察的对象应同质,研究的方法(如检测手段、抽样方法)应相同,观察的时间最好一致等。

2.被比较的总体是否具有可比性,在被比较的总体之间与研究指标有关的其他因素是否一致或接近。

(四)相对数的统计推断

在随机抽样的情况下,从样本估计值推断总体的相对数应当考虑抽样误差,因此原则上需要进行参数估计和假设检验。

三、用统计软件计算率或构成比

例4-5

某校今年在校4 320名学生,试分析各年级的性别构成情况。

此数据库已建立在文件夹中,文件名为:b4-3.dbf。

1.CHISS软件可以对分类资料进行统计描述,计算率或构成比

(1)进入数据模块:

打开数据库。点击“数据”→“文件”→打开“数据库表”。找到文件名“b4-3.dbf”→“确认”。

(2)进入统计模块:

进行统计计算。点击“统计”→“统计描述”→“分类指标的描述”。已选入因素:“年级”“性别”→“确认”,选择二维表。

(3)进入结果模块:

查看结果,点击“结果”,见表4-6。

表4-6 分组求例数及构成比

注:数据来自文件:b4-3.dbf。其中,性别:0-女性,1-男性。

2.SAS软件对分类资料进行统计描述,计算率或构成比

统计描述结果如图4-23。

图4-23 SAS软件中分类资料描述性统计量结果

3.Stata对分类资料进行统计描述,计算率或构成比

*导入样例b4-3的csv文件

import delimited E:\example\b4-3.csv,encoding(GBK)clear

*分类变量年龄、性别的统计描述,如图4-24

tab 年级性别

4.SPSS软件对分类资料进行统计描述,计算率或构成比

此数据库已建立在文件夹中,文件名为“b4-3.sav”。

首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b4-3.sav”,点击“打开”。

第二,点击“数据”→“拆分文件”,弹出“拆分文件”对话框,如图4-25所示,选择“比较组”,分组依据选择“年级”,选择“按分组变量进行文件排序”,点击“确定”。

图4-24 SAS软件中分类资料描述性统计量结果

图4-25 拆分文件对话框

第三,点击“分析”→“描述统计”→“频率”,弹出“频率”对话框,如图4-26所示,变量选择“性别”,勾选“显示频率表”点击“确定”。

显示结果如图4-27所示。

图4-26 频率对话框

图4-27 SPSS软件中分组求例数及构成比