第二节 数据库和数据库管理
数据库(database)顾名思义是存放着大量数据的仓库。但数据在仓库中不是杂乱无章地堆放,数据库是一种内部结构强、独立性高、对应关系明确、联系密切、有安全可靠性,并可供用户查询、检索、更新等操作的数据集合。数据库要实现对数据进行管理,如进行排序、检索、分组、计算、更新、维护、合并与分解等功能,这正是数据库与用文字处理软件编辑的数据文件的不同。
客观世界中存在着许多事物,每个事物具有若干方面的特征,同类事物形成一个群体,他们具有同样的特征集,每个事物具体的特征情况各不相同。例如,某校学生的情况,学生形成一个群体,学生都有相同的特征,如姓名、性别、成绩等。每个学生的姓名、性别、成绩等又不尽相同,我们可以建立一个学生成绩资料数据库。
数据管理的对象是数据,在医学研究中,我们可以获取到大量的数据,如病的各种生理、生化检验指标,病历,医院的各种报表等。大量的数据要转化为有用的信息,必须充分利用计算机数据库管理技术。数据管理技术就是把所获取的数据及时、完整、无误地进行有效的搜集、保存、加工、整理和保存。
数据库有一定的结构,怎样理解并表达数据间的联系,常用的有三类不同的数据库模型,即多对多的网状数据库模型、一对多的层次数据库模型和二维关系数据库模型。选择合适的计算机数据管理软件是保证数据质量的重要方面,目前最常用的数据库有以下几种:
(1) ORACLE:由美国Oracle公司开发,是最早商品化的关系型数据库系统,具有能存储大量数据、定义和操纵数据、并发控制、安全性控制、完整性控制、故障恢复与高级语言的接口等功能。支持各种分布功能,如支持Web数据库等。ORACLE使用PL/SQL语言执行各种操作。ORACLE的最新版本是ORACLE 19C。网址:http://www.oracle.com.cn/。
(2) Microsoft SQL Server:1990年由美国微软公司开发,特点是在SQL Server的平台基础上创建应用程序,功能强大,价格低;SQL Server系统自身管理功能强大,不需要专门人员进行系统调校。最新版本是Microsoft SQL Server2019,Microsoft SQL Server的网址:http://www.Microsoft.com.。
(3) Access:美国Microsoft公司的Microsoft office组件之一,是Windows环境下流行的桌面型数据库管理系统,Access提供了可视化的开发工具,无需编程就可完成大部分的数据管理任务。Access除了可以和其他Microsoft office组件(如Word,Excel等)进行数据共享和交换,还可以通过ODBC(Open Data Base Connection)与其他数据库进行数据共享和交换。最新版本是Microsoft Access 2020,网址:http://www.microsoft.com./china/office/Access。
(4) EpiData:丹麦学者Lauritsen JM等人于1999年发起,是由软件EpiInfo 6.0精简而成,供数据输入和数据存档用的数据管理软件,可在Windows10/Windows8/Windows7环境下免费使用,目前为3.1版。编写这个程序的目的是教会普通用户如何将一张数据记录表“计算机化”,能快速建立数据录入程序,可满足数据的校验录入、双份比较,使得数据输入工作变得很容易,它的基本设计思想是帮助用户生成较好的原始数据供以后分析使用,暂不具有统计分析功能,因此建立的数据库可转变成dBase、Excel文件以及SAS、SPSS和Stata软件的数据格式。缺点是单用户程序,无网络版;记录数限制20万条左右;字段数限制在999行内写完。EpiData软件网址:http://www.epidata.dk。
(5) Excel:Exce(l电子表格)是Microsoft公司的Microsoft office组件之一,具有数据管理、图形制作、数据处理的多种功能,优点是简单易学,操作方便,易于和其他办公软件交换数据,所以对小样本的数据管理可以采用Excel。
一项较大规模的医学科研工作,必须有专职的数据管理人员。在医学研究开始时就确定由专人担任数据管理人员。数据管理人员应该详细了解研究目的和研究计划,并参与表格设计的过程,为观测记录表格的数据能方便、准确地收集和录入计算机提供意见和帮助,既协助观测记录表格中有关项目的编码,也为以后的数据录入做准备。数据管理员的职责如下:①根据原始数据的大小及研究的要求选择适合的计算机数据库系统。②建立数据库,设立变量名(数据库中的字段名)并对变量值(观测值)进行编码。对每一变量制定合理的有效性规则。实验过程中,一些重要的项目是以文本形式记录的,如不良事件、伴随疾病、合并用药等,为了分析时归纳与总结的方便,常需要对这些部分进行分类与编码。目前,国际上有成熟的编码系统,国内目前已有部分编码词典的中文版本,但尚缺乏可以正确使用这些系统的专业人员。③调试数据库。④制作编码对照表字典及录入员手册。⑤负责组织培训录入员,将数据记录表上的数据录入计算机。⑥负责计算机数据的核查。⑦对数据库中数据的管理和提供统计用数据表。
对于新药临床试验,应事前设计好完备的观测记录表(CRF),每个试验中心应在完成观测后,填写CRF,CRF应一式三份,其中一份通过临床监察员及时送交数据管理员,以便建立相应的数据库,所有数据将采用计算机软件编制数据录入程序进行双份录入。在此期间,将疑问表通过临床监察员转交给研究者进行数据审核,研究者应尽快回答并返回。在盲态审核并认为所建立的数据库正确后,将由主要研究者、申办者、统计分析人员和药品监督管理人员对数据进行锁定。锁定后的数据文件不允许再作变动。数据库将交由统计分析人员按统计计划书要求进行统计分析。
目前,医学研究尚未全面实现信息化管理,电子数据、病例尚未能全部替代纸张病例,医学研究资料首先还是以纸张的形式被收集起来作为原始数据文件。数据管理的所有工作均应有书面材料为据,包括:数据管理计划、数据库确认、观测记录表交接、数据确认细节描述、疑问表交接、质控检查、数据审核与锁定均应有文书为据。因此对纸张数据资料科学合理的收集与管理是获取真实、可靠的医学研究的重要环节,也是研究结论的真实性与可靠性的重要保证,规范其收集与过程管理具有重要意义。
在医学研究过程中,从研究的立题开始就已经产生了研究用文件,包括医学科学文献和数据的引用等,文件也是非常重要的数据。根据国家《医学科学技术档案管理办法》第四条规定,研究者应该及时建立研究性文件的管理方法。一般情况下,医学研究档案包括以下几类:
(1)项目或课题立题相关的研究性文件:
包括项目或课题研究的建议书、课题研究计划书、课题研究任务书、总体计划和年度计划、说明书、选题报告、工作方案。
(2)与研究相关的交流与协作性文件:
包括领导部门的有关指示、专家的建议、国内或对外协作的协议书、科技合作报告及方案、合同、科技合作批准文件。
(3)原始数据文件:
包括观察的各种原始记录和数据、校正的数据记录、经过整理的计算数据等。
(4)与研究相关的成果性文件:
包括科研论文和专著原稿、研究工作报告和阶段性工作报告、年终总结报告、结题报告、成果鉴定书、推广使用报告、成果奖励文件、发明申请书、发明评议书、发明证书、奖励证明、研究项目的修订或撤销等文件。