公共卫生服务基本技术与方法
上QQ阅读APP看书,第一时间看更新

第四节 常用的几种统计软件简介

在科研工作中,一旦完成资料的收集,接下来的工作就是将资料输入计算机,并对其进行整理分析,其中就会涉及多个相应的统计软件。下面就最常用的4种统计软件逐一做简单介绍。

一、Epidata

EpiData由丹麦EPIDATA协会(1999年成立)开发,可直接从www.epidata.dk免费下载,目前最新版本为Epidata3.1。EpiData软件安装如同拷贝程序文档一样简单。例如,它可以从U盘运行,并且占用磁盘空间小(仅3MB),界面友好,操作方便,易于学习,具有常用数据管理功能,能与主流统计分析软件交换数据,具有多国语言版本等特点。目前,Epi-data可用于windows 95/98/NT/2000/XP/Vista/windows 7/windows 8。EpiData是一个既可以用于创建数据结构文档,也可以用于数据定量分析的一组应用工具集合。目前,广泛应用于临床医学和公共卫生研究领域。

EpiData录入软件用于简单或程序化的数据录入和数据文档。录入软件可处理简单的表格或相关系统优化文档,以及识别错误。例如双录入核查,在几个文档中的ID号的列表,数据统计表格概述,加日期备份和加密程序。

EpiData Analysis可执行基本的统计分析、图表,和综合的数据管理。例如描述性统计,SPC图表,重新编码数据,标注值和变量,以及定义缺失值。

该软件可以将数据输出为Stata, SPSS数据格式,也可将有标识和缺失值定义的数据输出为SAS、DBF、CSV的格式。也能导入DBF、CSV及有标识和缺失值定义的SAS数据。Analysis读取标准格式(dbf/csv/rec格式)和标准HTML输出。

利用Epidata进行数据输入,按下列步骤进行:①建立编码表:根据调查问卷建立编码表;②定义数据库结构和设计用户输入界面:根据问卷和编码表编写问卷文件(*.qes); ③建立数据库文件:从问卷文件建立空数据库文件(*.rec); ④建立数据核查文件(*.chk); ⑤输入数据;⑥数据核查;⑦数据归档备份;⑧数据双输入核查。

二、SPSS

SPSS软件最初全称为“社会科学统计软件包(Solutions Statistical Package for the Social Sciences)”,随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案(Statistical Product and Service Solutions, SPSS)”,标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。迄今,SPSS公司已有40余年的成长历史。2010年随着SPSS公司被IBM公司并购,各子产品家族名称前面不再以PASW为名,修改为统一加上IBM SPSS字样。

SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H.Nie、C.Hadlai(Tex)Hull和Dale H.Bent于1968年研究开发成功,同时成立SPSS公司,并于1975年成立法人组织,在芝加哥组建了SPSS总部。世界上许多有影响的报纸杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予高度的评价。在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,由此可见其影响之大和信誉之高。

SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用SPSS操作界面Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。极大地方便了中、高级用户。

SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。每类中又分若干个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。

SPSS for Windows的分析结果清晰、直观、易学易用,而且可以直接读取EXCEL和DBF数据文件,现已推广到多种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响的三大统计软件。自21.0版采用分布式分析系统(distributed analysis architecture, DAA),该软件全面适应互联网,支持动态收集、分析数据和HTML格式报告。

SPSS具有如下特点:①操作简便:界面非常友好,除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过鼠标拖曳、点击“菜单”、“按钮”和“对话框”来完成。②编程方便:具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。③功能强大:具有完整的数据输入、编辑、统计分析、报表和图形制作等功能。自带11种类型共136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。④数据接口:能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPro产生的.dbf文件,文本编辑器软件生成的ASCⅡ数据文件,Excel的.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为.txt及html格式的文件。⑤图形和输出:在SPSS以往版本中已经使用的一种高度可视化的构造图表交互界面——图形构建器在SPSS新版中得到了进一步的加强。新式的图表能够让用户将复杂的信息清晰地表现出来。而PDF格式的输出功能能够让用户更好地同其他人员进行信息共享。⑥软件平台编辑:自SPSS 16.0起推出Linux版本。SPSS最新版本为SPSS 22.0,已支持Windows 8、Mac OS X、Linux及UNIX/2012年,提供Mac、Windows、Linux及UNIX四种平台产品版本下载。

三、SAS

SAS(Statistical Analysis System)是全球最大的软件公司之一,是由美国NORTH CAROLINA州立大学1966年开发的统计分析软件。1976年SAS软件研究所成立,开始进行SAS系统的维护、开发、销售和培训工作。期间经历了许多版本,并经过多年来的完善和发展,SAS系统在国际上已被誉为统计分析的标准软件,在各个领域得到广泛应用。

SAS是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。

SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持及其数据仓库设计。

SAS系统主要完成以数据为中心的四大任务:①数据访问;②数据管理(SAS的数据管理功能并不很出色,而是数据分析能力强大,所以常常用微软的产品管理数据,再导成SAS数据格式,要注意与其他软件的配套使用); ③数据呈现;④数据分析。当前软件最高版本为SAS 9.4。其中Base SAS模块是SAS系统的核心。其他各模块均在Base SAS提供的环境中运行。用户可选择需要的模块与Base SAS一起构成一个用户化的SAS系统。

Base SAS作为SAS系统的核心,负责数据管理,交互应用环境管理,进行用户语言处理,调用其他SAS模块。Base SAS为SAS系统的数据库提供了丰富的数据管理功能,还支持标准的SQL语言对数据进行操作。Base SAS能够制作从简单列表到比较复杂的统计报表。Base SAS可进行基本的描述性统计及其相关系数的计算,进行正态分布检验等。

(1)SAS/GHAPH:可将数据及其包含着的深层信息以多种图形生动地呈现出来,如直方图、圆饼图、星形图、散点相关图、曲线图、三维曲面图、等高线图及地理图等。SAS/GHAPH提供一个全屏幕编辑器,提供多种设备程序,支持非常广泛的图形输出设备以及标准的图形交换文件。

(2)SAS/ASSIST:为SAS系统提供了面向任务的菜单界面,借助它可以通过菜单系统来使用SAS系统其他产品。它自动生成的SAS程序既可辅助有经验的用户快速编写SAS程序,又可帮助用户学习SAS。

(3)SAS/AF:是一个应用开发工具。用户使用SAS/AF可将包含众多功能的SAS软件作为方法库,利用SAS/AF的屏幕设计能力以及SCL语言的处理能力来快速开发各种功能强大的应用系统。SAS/AF也采用了面向对象编辑技术,使用户可方便快速开发各类具有图形用户界面的应用系统。

(4)SAS/EIS:是决策工具,也是一个快速应用开发工具。SAS/EIS完全采用新兴的面向对象的编程模式。EIS以生动直观的方式(图或表)将关键性或总结性信息呈现给使用者。

(5)SAS/ACCESS:为了对众多不同格式的数据进行查询、访问和分析,SAS/ACCESS提供了与许多流行数据库软件的接口,利用SAS/ACCESS可建立外部其他数据库的一个统一的公共数据界面。SAS/ACCESS提供的接口是透明的和动态的。用户不必将此文件当作真正存储着数据的SAS数据集一样使用,而只需在SAS中建立对外部的描述(即VIEW)文件,便可将此文件当作真正存储着数据的SAS数据集使用。对一些经常使用的外部数据,可以利用SAS/ACCESS将数据真正提取进入SAS数据库。SAS/ACCESS提供的接口是双向的,既可将数据读入SAS,也可在SAS中更新外部数据或将SAS数据加载到外部数据库中。SAS/ACCESS支持的数据库主要有:IML-DL/I, SQL/DS, DB2, ADABAS, Rdb, ORACLE, Sybase, INGRES, Informix, DBF/DIF, ODBC等。

(6)SAS/STAT:覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件。SAS/STAT提供了八十多个过程,可进行各种不同模型或不同特点数据的回归分析,如正交回归/面回归、响应面回归、logistic回归、非线性回归等,且具有多种模型选择方法。可处理的数据有实型数据、有序数据和属性数据,并能产生各种有用的统计量和诊断信息。在方差分析方面,SAS/STAT为多种试验设计模型提供了方差分析工具。另外,它还有处理一般线性模型和广义线性模型的专用过程。在多变量统计方面,SAS/STAT为主成分分析、典型相关分析、判别分析和因子分析提供了许多专用过程。SAS/STAT还包含多种聚类准则的聚类分析方法。

(7)SAS/QC:为全面质量管理提供了一系列工具。它也提供一套全屏幕菜单系统引导用户进行标准的统计过程以及试验设计。SAS/QC提供了多种不同类型控制图的制作与分析。排列图可用于发现需优先考虑的因素,鱼骨图可用于直观地进行因果分析。

(8)SAS/ETS:SAS/ETS提供丰富的时间序列分析方法,是研究复杂系统和进行预测的有力工具。它提供方便的模型设定手段、多样的参数估计方法。

(9)SAS/OR:提供全面的运筹学方法,是一种强有力的决策支持工具。它辅助人们实现对人力、时间以及其他各种资源的最佳利用。SAS/OR包含通用的线性规划、混合整数规划和非线性规划的求解,也为专门的规划问题提供更为直接的解决办法。

(10)SAS/IML:提供功能强大的面向矩阵运算的编程语言,帮助用户研究新算法或解决SAS中没有现成算法的专门问题。SAS/IML中的基本数据元素是矩阵。它包含大量的数学运算符、函数和例行程序,用户用很少的语句便可执行很复杂的计算过程。

(11)SAS/WA:是建立数据仓库的集成工具,它在其他SAS软件的基础上提供了一个建立数据仓库的管理层,包括:定义数据仓库和主题,数据转换和汇总,汇总数据的更新,Metadata的建立、管理和查询,Data marts和Info marts的实现。

(12)SAS/MDDB Server:是SAS的多维数据库产品,主要用于在线分析处理,可将从数据仓库或其他数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速和方便地访问。

(13)SAS/IntrNet:为SAS Web应用提供了数据服务和计算服务,包括htmSQL,为一UNIX Web服务器的CGI程序,使得能通过支持Web浏览器动态查询SAS数据或外部的关系型数据库;SAS ODBC Driver使得能通过支持ODBC的Windows Web服务器来访问SAS数据;SAS Driver for JDBC可以通过Java applet来查询SAS数据;SAS/IntrNet Ap-plication Dispatcher使得可以通过Web浏览器动态地递交SAS程序到SAS应用服务器上执行,并将结果返回浏览器。

(14)SAS/GIS:集地理位置系统功能与数据的显示分析于一体。它提供层次化的地理信息,每一层可以是某些地理元素,也可与用户定义的主题相关联。用户可交互式地缩小或放大地图,设定各层次显示与否,并利用各种交互式工具进行数据显示与分析。

(15)SAS/ITSV:IT Service Vision(ITSV)是企业全面IT服务的性能评估和管理的软件。这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。ITSV将不同来源的数据进行整理和组织,存放于性能数据仓库中,用GUI或批处理的方式产生组织任意层面的报告。系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO和数据中心经理能借此定期地得到所需的IT运作的汇总和分析报告。

(16)SAS/CFO Vision:用于财务整合和报告,内部包含了会计知识,为日常财务工作提供了现成的程序,并提供了访问所有主要数据源的接口。它主要用于访问财务和非财务的有关住处整合财务数据,通过一个财务信息仓库来管理业务结构,通过财务报告和分析帮助理解财务的结果,并在组织内交流关键的业务结果信息。

SAS把数据存取、管理、分析和展现有机地融为一体。主要特点如下:①功能强大,统计方法齐全:SAS提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多元统计分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。对于中间计算结果,可以全部输出,不输出或选择输出,也可存储到文件中供后续分析过程调用。②使用简便,操作灵活:SAS以一个通用的数据(DATA)步产生数据集,尔后以不同的过程调用完成各种数据分析。其编程语句简洁、短小,通常只需很小的几句语句即可完成一些复杂的运算,得到满意的结果。结果输出以简明的英文给出提示,统计术语规范易懂,具有初步英语和统计基础即可。使用者只要告诉SAS“做什么”,而不必告诉其“怎么做”。同时SAS的设计,使得任何SAS能够“猜”出的东西,用户都不必告诉它(即无需设定),并且能自动修正一些小的错误。对运行时的错误它尽可能地给出错误原因及改正方法。因而SAS将统计的科学,严谨、准确与便于使用有机地结合起来,极大地方便了使用者。③提供联机帮助功能:使用过程中按下功能键F1,可随时获得帮助信息,得到简明的操作指导。

四、Stata

Stata是目前在欧美最为流行的统计软件,具有操作简单、功能强大的特点。由于使用Stata的用户很多,对于最新统计方法,常常可以下载由用户写的Stata命令程序,十分方便。Stata以其操作简单、运行快速而精确、全面的数据管理功能、精致的作图、强大的统计与计量分析功能、简练标准的程序与矩阵运算功能、丰富的网络资源,在各领域得到广泛使用。

Stata是一个用于数据管理和分析的统计软件,由Stata公司研制开发。从1985开始,先后开发了多个版本,目前Stata的最新版本为2013年6月份推出的Stata 13.0。Stata 13.0包括四种版本:Small(小型版)、IC(标准版)、SE(特别版)和MP(多处理器版)。其中属MP版本最为强大。MP版与SE版的功能完全相同,但MP版的运算速度比SE版的要快很多。用户可以在命令栏输入about查看所安装的Stata所属的版本。最新版本增加了以下功能:治疗效应,多水平混合效应广义线性模型,检验效能与样本含量,一般效应指标的结构方程模型和预测等。

Stata主要功能有:①单元统计:描述统计、假设检验(参数、非参数)、ANOVA、质控制、统计作图;②多元统计:MANOVA、主成分、因子分析、典型相关、聚类、判别分析、对应分析、多维标度;③线性回归、非线性回归、工具变量回归、广义线性回归、分位数回归(稳健回归)、系统方程模型(SUR、联立方程)、离散选择模型(二项选择、排序选择、多项选择、条件Logit、嵌套Logit模型、二元选择模型等)、计数模型(Poisson回归、负二项回归)、截断与归并模型、海克曼选择模型、逐步回归等;④时间序列分析:时间序列的平滑、相关图、ARI-MAX、GARCH、单位根检验、Johansen协整检验、VAR、VEC、滚动回归等;⑤面板数据(线性模型、工具变量回归、动态面板、分层混合效应、广义估计方程(GMM)、随机边界模型等);⑥调查数据分析;⑦生存分析;⑧Monte Carlo模拟:bootstrap法和jackknife法。

Stata特点:①程序语言严谨、简练、灵活:Stata提供了严谨、简练而灵活的程序语句,用户可以编写自己的命令和函数,也可以制作自己的对话框和窗口菜单;②强大的矩阵运算功能:Mata是Stata的矩阵运算语言,实现各种运算;③兼容性:在Stata中可以直接运行其他程序;其他语言编写的程序可以作为插件直接嵌入到Stata中。

(李秀央)

思考题

1.已知两组肝炎婴儿的血清总胆红素含量资料整理见表3-36:

表3-36 两组肝炎婴儿的血清总胆红素(μmol/L)含量的频数分布表

试问:

(1)本资料类型是什么?

(2)本研究设计类型是什么?

(3)若要比较两组肝炎婴儿的血清总胆红素含量有无差别,该选用什么方法?

(4)请写出上题(3)的分析的基本步骤。

(5)给出推断结论的理论依据。

2.某医生欲比较甲乙两种手术的效果,将61只大白鼠随机分成两组,数据整理如表3-37所示。该医生采用t检验对资料进行分析,结论为“两组大白鼠的生存时间差别有统计学意义,乙手术的效果优于甲手术”。该医生资料的统计分析方法是否合适?如不合适请简述理由,并写出正确的统计分析方法。

表3-37 两组大白鼠接受两种手术后的生存时间比较

参考文献

1.陈坤,陈忠.医学科研方法.北京:科学出版社,2011.

2.罗家洪.医学统计学.北京:科学出版社.第2版.2011.

3.罗家洪.医学统计学计算机操作教程.第2版.北京:科学出版社,2012.

4.罗家洪.卫生统计学.第2版.北京:科学出版社.2014.

5.罗家洪.卫生统计学计算机操作教程.第2版.北京:科学出版社,2014.