第一节 单一变量的统计描述
单一变量的统计描述,包括单一数值变量的统计描述和单一分类变量的统计描述。
一、单一数值变量的统计描述
单一数值变量的统计描述,是用明确的计算公式和直观的图表方式等,展示某一数值变量的数值特征和分布特征。其数值特征主要是指变量值的集中趋势和离散趋势,分布特征是指变量值分布的正态性、偏态性、对称性等,通过频数表数据可作初步判断。
第一,描述单一数值变量的集中趋势和离散趋势。变量值的集中趋势是变量值集中水平或密集程度指标,有均数()、几何均数(G)、中位数(M)等,如表4-1;离散趋势是变量值离散水平或分散程度的指标,包括标准差(S)、极差(R)、四分位数间距(Q)等,如表4-2。
第二,数据库数据转换为频数表数据、绘制频数分布图,描述分布特征。数据库数据转换为频数表数据,一般是将数值变量涵盖的取值范围分为8~12组,再计算得到每组包含的变量值个数(也称频数)即可。根据频数表数据绘制频数分布图(如直方图等),如表4-3。初步估计变量值分布的对称性、峰态性等,判断是否服从正态分布或偏态分布。
例4-1某研究者测定了100名男性中学生身高资料如下,试对该身高值进行统计描述。
该例给出的身高数据属于单一数值变量的原始记录数据,要求建好单一数值变量的数据库,即数据库数据,如表4-4。
然后,计算该身高数据的集中趋势、离散趋势,以及频数分布、正态性、偏态性、对称性等指标。
计算软件不同,统计描述有不同的操作方法。
例4-1转频数表数据SAS程序SASfreqP4_1:
例4-1转频数表数据SAS程序的计算结果:
“z、Frequency、Percent、Cumulative Frequency、Cumulative Percent”依次为z变量、频数、每个频数占总例数的百分比、累计频数、累计百分比。
SAS中统计描述的计算指标主要通过means和univariate过程实现。
SAS的means过程可对数据进行简单的统计描述,包括的指标有例数(N)、均数(Mean)、标准差(Std Dev)、标准误(Std Error)、最小值(Minimum)等。
例4-1means过程的SAS程序SASmeansP4_1:
例4-1means过程的SAS计算结果:
SAS的univariate过程除了能统计means过程的统计量外,还可输出百分位数、极端值和t检验结果等。univariate过程与上述means过程基本相同,只是将means改为univariate即可。
例4-1univariate过程的SAS程序SASunivariateP4_1:
例4-1数据univariate过程的SAS计算结果:
例4-1的SAS绘制直方图程序SAShistogramP4_1:
点击上图按钮,弹出调整选项菜单,其中Ticks选项可对图形坐标轴刻度的最大值、最小值、刻度间隔等进行调整。
例4-1SPSS绘制直方图操作步骤SPSSP4-1:
打开d4-1.sav文件,在SPSS程序中按以下步骤操作:
例4-1的SPSS计算结果:
二、单一分类变量的统计描述
单一分类变量的统计描述,是用明确、直观的计算和图表等方式,展示某一分类变量的分类特征,主要包括相对数,如率、构成比、相对比、动态数列等,以及编制分类频数表和频数分布图等。
首先,编制分类变量的分类频数表。分类频数表是指分类变量频数表数据,是在分类变量的数据库数据中,分类变量不同类别的变量值个数或频数。
第二,计算分类变量的常用计算指标。描述单一分类变量的数值特征,通常需要计算一些率或比等相对数指标,如疾病的患病率、病死率、构成比等,见表4-5。
第三,绘制有关分类变量的统计图。一般地,应用分类频数表数据绘制分类频数分布图,如直条图,直观形象地反映该变量数据的分类特征,见表4-6。
例4-2某社区应接种麻疹疫苗的儿童共1024人,接种记录如表4-7,请对该社区的麻疹疫苗接种情况进行描述。
表4-7某社区麻疹疫苗接种情况的数据属于分类变量的数据库数据,可将其转换为分类频数表数据、计算有关相对数指标、绘制直条图(此处省略)。
例4-2的SAS程序SASP4_2:
例4-2的SAS计算结果:
该社区已接种麻疹疫苗(vaccine =1)的儿童占96.39%(Percent),即麻疹疫苗的接种率为96.39%。
例4-2的SPSS操作步骤SPSSP4-2:
打开d4-2.sav文件,在SPSS程序中按以下步骤操作:
例4-2的SPSS计算结果:
该社区已接种麻疹疫苗的儿童占96.4%(Percent),即麻疹疫苗的接种率为96.4%。