第二节 数 据
数据(data)是描述研究指标数值大小或属性特征的观察值。按变量的类型不同分为有数值变量数据、分类变量数据等各类;按照数据的呈现方式不同,将其分为数据库数据和频数表数据两类,本节予以介绍。
一、数据库数据
数据库数据(database data)一般特指根据一定的研究目的确定的、用二维数据库(bivariate-table data)方式逐一有序记录的、可供统计软件或程序分析的、不同观察对象的各个观察指标的全部观察值。如某年某妇幼医院孕产妇基本信息见表2-2,可视为数据库数据。
表中除第一行属于观察指标外,其余每一行代表一个观察对象(即孕妇)的所有观察指标值;每一列代表某项观察指标所有观察对象的观察值。统计分析要求,数据库数据能够直接应用相关统计软件进行计算分析。由于不同软件对文字存在可识别性问题,还要求数据库的数据值全部用阿拉伯数字表示,必要时应在适当位置附加批注。表2-2可修改成如下数据库数据,见表2-3。
二、频数表数据
频数表数据(frequency-table data)是将研究对象的某一指标按其数值大小分组或属性特征分类,清点各组或各类观察单位出现的个数(即频数),有分类变量的频数表数据和数值变量的频数表数据两种。
表2-4是某年某医院不同贫血程度的孕产妇人数,属于按分类变量(贫血程度)分类的频数表数据。
表2-5是某年某医院不同年龄分组的孕产妇人数,属于数值变量(年龄)分组的频数表数据。
三、数据库数据与频数表数据的转换
数据库数据可以转换为频数表数据。对于数值变量而言,这种转换相当于数值变量向多项有序分类变量(或多项无序分类变量)转换,常常会损失一些数据库数据的信息,但分类变量一般不会损失信息;频数表数据也可转换为数据库数据,由于数值变量存在数据信息被丧失,一般仅限于分类变量。所以,两种数据类型的转换方向多由数据库数据向频数表数据转换。
数据库数据在转换频数表数据的过程中,如果只有一个变量的转换,称为单一变量转换;如果同时针对两个变量,称为双变量转换,包括两个分类变量转换、两个数值变量转换、一个数值变量与一个分类变量转换三种情形。至于多个变量的转换,因为较为复杂也不常应用,未予述及。
例2-1 某妇幼医院某年就诊孕产妇基本信息如表2-6,试将血型变量转换为单一变量的频数表数据,将血型和贫血程度变量转换为不同血型不同贫血程度的双变量频数表数据。
例2-1中的数据是含有多个变量的数据库数据。不同血型人数的多少,属于单一分类变量转换的单一变量频数表数据;不同血型人群贫血程度的高低,是血型和贫血程度两个分类变量转换的双变量频数表数据。