第三节 卫生信息数据元
一、卫生信息数据元模型及应用
以GB/T1839《信息技术 元数据注册系统》为规范性引用文件,原国家卫生部发布了卫生行业标准WS/T303-2009《卫生信息数据元标准化规则》。WS/T303-2009规定了卫生信息数据元属性,卫生信息数据元命名、定义、分类,卫生信息数据元内容标准编写格式规范等,用于卫生信息数据元的研究与制定。
与WS/T303-2009同期发布的,还有WS/T304-2009《卫生信息数据模式描述指南》、WS/T305-2009《卫生信息数据集数据规范》、WS/T306-2009《卫生信息数据集分类与编码规则》,这系列标准成为国内卫生信息数据标准的元数据和元模型。
WS/T303-2009采用GB/T1839《信息技术 元数据注册系统》描述的数据元概念、框架、分类、模型等内容,并结合卫生信息数据特征和应用特点进行了扩展。
(一)卫生信息数据元模型
根据GB/T1839和WS/T303-2009所描述的数据元概念,以数据元基本模型、属性基本模型、值域基本模型、概念系统基本模型和总体模型,勾画出卫生信息数据元模型(图7-6),用于描述卫生信息数据元特性、结构和相互关系[10]。
图7-6 卫生信息数据元模型
卫生信息数据元模型描述了卫生信息数据元的开发过程,首先是将业务数据单元抽象为对象类,并概括其共有特征(即特性),将特性分解为“特性+表示”,然后将“特性+表示”映射为属性。采用卫生信息数据元模型开发数据元标准,包括领域业务数据特征映射、数据分类、属性描述和值域定义等内容。
(二)卫生信息数据元模型应用
1.业务数据的映射
开发卫生信息数据元标准的第一步,是将相关的医疗卫生业务数据映射到模型中。映射包括提取、概括、抽象和分类等操作,表7-2列出映射操作和内容。
表7-2 映射操作与内容
目前国内开发数据元标准主要采用业务表单法。每一张业务表单都包括若干数据项(又称数据单元),把这些数据单元提取出来,赋予其属性,形成该业务主题的数据元集合(数据集)。由于缺乏数据映射和信息建模过程,业务表单法基于具体业务的数据标准化方法,带有特定的应用语境和浓重的业务色彩,导致这种标准化方法过度依赖于具体的业务,很难实现信息标准体系本身的有序性和可维护性,限制了标准的演进和应用[11]。
2.数据元属性的语境
数据元属性的语境决定了数据元标准的互操作性。为了实现数据元标准的语义互操作性,需要改善和提高数据元属性的语境能力。在卫生信息数据元的5类22项属性中,并非所有属性都有语境要求,表7-3列出需要重点关注的数据元属性语境以及改善和提高方法。
表7-3 数据元属性语境
表7-4列出WS/T303-2009《卫生信息数据元标准化规则》列出的卫生信息数据元属性,分为5类22项。表中“约束”是指数据元属性中,该属性是“必选(M)”,还是“条件选(C)”,或者是“可选(O)”。
表7-4 卫生信息数据元属性
制定一个数据元时,并不是所有的属性都要用到,而是可以根据数据元的约束条件和应用实际选择。国内卫生信息数据元常用的属性包括标识符、名称、定义、数据类型、表示格式、允许值。
在WS363-2011《卫生信息数据元目录》中,数据元属性只采用了表7-4的22项数据元属性中的13项,如表7-5所列。
表7-5 WS363-2011《卫生信息数据元目录》采用的数据元属性
标识类的同义名称、相关环境属性、关系类的相关数据参照、关系类型属性等语境程度高的属性,WS363-2011并没有采用,因而限制了该目录中数据元的语义互操作性。
3.值域代码
数据元表示类属性的允许值(值域)是开发数据元标准中的一个关键问题,即使对数据元的标识、定义和关系做了良好的描述,如果缺乏合理的值域代码,数据元也无法发挥应有的作用。
为了与WS363-2011《卫生信息数据元目录》配套,原国家卫生部同时发布了WS364-2011《卫生信息数据元值域代码》。该值域代码标准是在《健康档案基本架构与数据标准(试行)》(卫办发〔2009〕46号)基础上对数据元值域代码及约束条件进行修订,规范了数据元值域取值。WS364-2011的值域分类与WS 363-2011的数据元分类保持一致,便于各类信息的表示、交换、识别和处理。除了WS 364-2011外,WS363-2011还使用其他值域代码标准,例如GB/T2261《个人基本信息分类与代码》、GB/T2260《中华人民共和国行政区划代码》、GB/T12402《经济类型分类与代码》、ICD-10、ICD-9-CM、ICD-O-3等。
WS 364-2011的同样问题是缺乏语境信息,值域代码没有上下文环境。通常是一个概念域只关联一个值域(或说一个概念只对应一个值域代码),这种语境的表述在复杂的医学过程中是远远不足的。例如,一个相同疾病的编码,如果能够反映该疾病的起因等因素,则该编码就具有较强的语境,能实现较高水平的语义互操作性。
综上所述,卫生信息数据元模型在医学术语、分类模型、值域代码和互操作性模型的规范和约束下,建立了从卫生业务数据,到形成数据元的方法学,如图7-7所示。
图7-7 卫生信息数据元模型应用
二、卫生信息数据元
1.数据元目录
WS363-2011《卫生信息数据元目录》是目前国内唯一正式发布的卫生信息数据元目录,WS363-2011共包括17部分。
第1部分:总则
第2部分:标识
第3部分:人口学及社会经济学特征
第4部分:健康史
第5部分:健康危险因素
第6部分:主诉与症状
第7部分:体格检查
第8部分:临床辅助检查
第9部分:实验室检查
第10部分:医学诊断
第11部分:医学评估
第12部分:计划与干预
第13部分:卫生费用
第14部分:卫生机构
第15部分:卫生人员
第16部分:药品、设备与材料
第17部分:卫生管理
第1部分总则是该数据元目录的元数据,规定了卫生信息数据元目录内容结构、数据元属性与描述规则、数据元目录格式和数据元索引的编制规则。其余16部分对应不同的医疗卫生业务,整个目录共收集1 400多条卫生信息数据元。
WS363-2011数据元属性采用5类13项属性(表7-5),并按通用性程度分为两类:数据元公用属性和数据元专用属性。数据元公用属性包括7项,数据元专用属性包括6项,如表7-6所示。WS363-2011所列的13项数据元属性约束都是必选,表示这13项内容在数据元所列属性中是不可或缺的。
表7-6 WS363-2011数据元属性
2.数据元标识符
卫生信息数据元标识符照分类法和流水号相结合的方式,采用字母数字混合码。按照数据元对应的主题分类代码、大类代码、小类代码、顺序码、附加码从左向右顺序排列。
(1)主题分类代码:
用2位大写英文字母表示。卫生信息领域代码统一定为“DE”。
(2)大类代码:
用2位数字表示。
(3)小类代码:
用2位数字表示。小类与大类代码之间加“.”区分。
(4)顺序码:
用3位数字表示,代表某一小类下的数据元序号,数字大小无含义。顺序码与小类代码之间加“.”区分。
(5)附加码:
用2位数字表示,代表一组数据元的连用关系编码,附加码与顺序号之间加“.”区分。
标识符结构见图7-8。
图7-8 数据元标识符结构
3.数据元名称
数据元“中文名称”应当是唯一的,以字母、汉字、数字形式的字符串形式表示。数据元的命名应使用一定的逻辑结构和通用的术语。
完整的数据元名称=对象类术语+特性类术语+表示类术语+(限定类术语)
(1)对象类术语:
对象类的名称(图7-1),例如在数据元名称“主治医师姓名”“患者体温测量”中,术语“医师”和“患者”就是对象类术语。一个数据元需要有一个且仅有一个对象类术语。
(2)特性类术语:
对象类特性的名称,例如在数据元名称“主治医师姓名”“患者体温测量”中,术语“姓名”和“体温”就是特性类术语。一个数据元需要有一个且仅有一个特性类术语 。
(3)表示类术语:
表示类的名称,描述含有表示的数据元的表示形式。例如在数据元名称“患者体温测量”中,术语“测量”就是表示类术语。一个数据元需要有一个且仅有一个表示类术语。当表示类术语与特性类术语有重复或部分重复时,可从名称中将冗余词删除。
(4)限定类术语:
当必须对一个数据元与另一个加以区分,可以将限定类术语附加到对象类术语、特性类术语和表示类术语上。例如在数据元名称“主治医师姓名”中,术语“主治”就是限定类术语。
(5)分隔符语义:
用各种标点符号连接名称的各部分,这些标点符号包括空格、连字符等分隔符、圆括号等分组符号。这些符号可以:
1)没有语义含义:
命名规则规定分隔符由一个空格或一个特定字符组成,而不考虑各部分之间的语义关系。
2)有语义含义:
分隔符能表达语义含义。例如,分配给限定术语中各词之间的分隔符不同于分配给分隔其他术语中各词的分隔符。用这种方法,分隔符就把限定术语从名称的其余部分清晰地标识出来。例如,在数据元“医疗年人均费用”名称:医疗-年_人均-费用,在限定术语之间的分隔符是下划线,其他名称成分之间的分隔符是连字符。
4.数据元值的数据类型
数据元值的数据类型如表7-7所示。
表7-7 数据元值的数据类型描述规则
5.数据元值的表示格式
数据元值的表示格式见表7-8和表7-9。
表7-8 数据元值的表示格式中字符含义描述规则
表7-9 数据元值的表示格式中字符长度描述规则
数据元值的表示格式示例:
(1)S字符型
AN10 固定为10个字符(相当于5个汉字)长度的字符。
AN..10 可变长度,最大为10个字符长度的字符。
AN4..10 可变长度,最小为4个最大为10个字符长度的字符。
AN..20X3 可变长度,最多3行,每行最大长度为20个字符长度的字符。
(2)N数字型
N4固定长度为4位的数字。
N..4最大长度为4位的数字。
N6,2最大长度为6位的十进制小效格式(包括小效点),小数点后保留2位效字。
(3)T日期时间型
T8采用YYYYMMDD格式(8位定长)表示年月日。
T15采用YYYYMMDDThhmmss格式(15位定长)表示年月日时分秒。时分秒之前加大写字母
“T”。如2010年1月5日8时10分9秒为20100105TO81009。
6.数据元允许值
数据元允许值有两种类型。
(1)可枚举值域:
由允许值列表规定的值域,每个允许值的值和值含义均应成对表示。其中:可选值在3个或以下,在“数据元允许值”属性中直接列举;可选值在3个以上,在“数据元允许值”属性中写出值域代码表名称,如代码表属引用标准的,则须注明标准号。
(2)不可枚举值域:
由描述规定的值域,在“数据元允许值”属性中须准确描述该值域的允许值。基于WS363-2011,国家先后发布了一系列卫生信息基本数据集,涵盖城乡居民健康档案、电子病历、医疗服务、疾病控制、妇幼保健等数十个医疗卫生业务领域。这些基本数据集,除了直接引用WS363-2011的数据元外,还增加了1 000多个数据元,以弥补WS363-2011的不足。这些新增的1 000多条数据元,基本是按照WS363.1-2011《卫生信息数据元目录第1部分:总则》的规则进行编制,可与WS363-2011同等使用。
三、卫生信息数据元值域代码
WS363-2011《卫生信息数据元目录》中规定,如果数据元允许值的可选值在3个以上时,需要采用值域代码表。WS364-2011与WS363-2011对应,也分为17部分,其分类名称与WS363-2011一致。第1部分总则是该值域代码标准的元数据,规定了卫生信息数据元值域代码标准的数据元值域的编码方法、代码表格式和表示要求、代码表的命名与标识。
1.数据元值域的编码方法
(1)代码结构:
数据元值域代码结构设计要求如下。
1)注重代码的标识作用,避免承载过多的信息,以保证结构的简练。
2)符合信息处理的基本方法,保持系统内、外的相关标准结构协调一致。
3)不受代码的添加、删除和修改破坏。
4)采用便于使用的符号。
图7-9是数据元值域代码结构示意图。
图7-9 数据元值域代码结构示意
(2)代码类型与形式:
数据元值域代码类型与形式要求如下。
1)代码字符可选择使用数字型、字母型、字母数字型代码。
2)代码字符应正确无误,易认易读,应避免使用容易混淆和误解的字符。
3)代码字符最好全部用数字或全部用字母表示。
4)选用顺序代码时,代码一般要等长。采用层次代码时,同层次代码要等长。
2.代码表格式
数据元值域代码表以表格形式列出,依据WS/T303《卫生信息数据元标准化规则》要求,表格由代码栏(代码指编码值,可简称为“值”)、编码对象名称栏(在代码表中可简称“值含义”)、说明栏组成,并可根据实际需要适当增减栏目。
3.代码表的命名和标识
(1)命名:
代码表应具备在特定领域背景上获得权威认可的名称。代码表的名称应准确反映代码表作为数据元表示类属性之一的特征,不应放大或缩小其使用范围。代码表的名称应简洁,传达明确的语义,体现代码表的本质内容。
(2)标识:
代码表在特定使用领域内应具有唯一的标识符,用来识别表示数据元值域的编码体系。卫生信息数据元值域代码表的标识符根据卫生信息的归类确定,结构如图7-10所示。
图7-10 值域代码表标识符结构
1)CV:
表示数据元值域的编码值(Coded Value)。
2)大类代码:
用2位数字表示,表示卫生信息分类中第一层(大类)的代码。
3)小类代码:
用2位数字表示,表示卫生信息分类中第二层(小类)的代码。
4)顺序号:
用3位数字表示,代表每一类别下值域代码表的序号。
大类代码、小类代码、顺序号之间用“.”分隔。
WS364-2011除了与WS363-2011配套使用,也用于其他卫生信息数据元标准。
四、卫生信息基本数据集
1.数据集概述
数据集是指具有一定主题,可以标识并可以被计算机化处理的数据集合。主题、标识、计算机处理、集合是数据集的四个基本要素。
(1)主题:
围绕着某一项特定任务或活动进行数据规划和设计时,对其内容进行的系统归纳和描述。通常数据集主题应具有划分性和层级性,划分性是指主题间可通过不同的命名,将相同属性的主题归并在一起形成相同的类。层级性是指主题可被分成若干子主题或子子主题。
(2)标识:
指能够通过规范的名称和标识符等对数据集进行标记,以供识别。标识与名称的取值需要通过具体的命名或编码规则来规范。
(3)计算机处理:
指可以通过计算机技术,对数据集内容进行发布、交换、管理和查询应用。
(4)集合:
指由按照数据元所形成的若干数据记录构成的集合。例如,病案首页数据集由主索引、入出转、诊疗、护理、手术、费用等数据元组成。
根据上述描述,卫生信息数据集应表述为:在特定医疗卫生业务主题下,卫生信息数据元的集合。如果不是在元数据规范下形成的标准化数据(数据元),而仅是数据的集合,那么这样的数据集作用是有限的,起码难以实现卫生信息互联互通的要求。2011年以来国内发布的一系列卫生信息基本数据集,其中的数据都是来自WS363-2011《卫生信息数据元目录》中的数据元,或是按照WS363.1-2011《卫生信息数据元目录 第1部分:总则》规则编制的数据元。
2.卫生信息基本数据集
基于WS/T303《卫生信息数据元标准化规则》、WS/T305《卫生信息数据集数据规范》、WS/T306《卫生信息数据集分类与编码规则》、WS363.1《卫生信息数据元目录 第1部分:总则》、WS364.1《卫生信息数据元值域代码 第1部分:总则》,原国家卫生部发布了WS370-2012《卫生信息基本数据集编制规范》,用于指导国内卫生信息相关数据集的编制与应用,并发布了一系列卫生信息相关基本数据集,如表7-10所列。
表7-10 近年来国内发布的卫生信息基本数据集
以上卫生信息基本数据集,有的包括若干子集。例如,WS44502014《电子病历基本数据集》包括病历概要、门(急)诊病历、门(急)诊处方、检查检验记录、一般治疗处置记录、助产记录、护理操作记录、护理评估与计划、知情告知信息、住院病案首页、中医住院病案首页、入院记录、住院病程记录、住院医嘱、出院小结、转诊(院)记录、医疗机构信息共17部分。数据集在首次发布后,其子集可以继续增加和发布。
随着医疗卫生业务信息化的发展,特别是物联网、大数据和人工智能等新一代信息技术在卫生健康领域的应用,目前国内卫生信息数据元和数据集的数量都是远远不足的,因此加快卫生信息数据元的开发,特别是临床信息数据元的开发、新兴信息技术与医学领域融合应用数据元的开发,是国内卫生信息标准化发展的重要任务。
(赵 霞)