医疗卫生信息标准化技术与应用(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 数据元模型

数据元模型是描述数据元特性、结构和相互关系的模型,是数据元的元数据。GB/T18391-2009《信息技术 元数据注册系统(MDR)》定义的数据元模型包括:数据元基本模型、数据元属性基本模型、数据元值域基本模型和数据元总体模型[6-9]。数据元模型是理解和掌握数据元概念和原理的基础。

一、数据元基本模型

1.数据元概念

数据元概念由对象类和特性组成(图7-1)。对象(又称为实体)是指事物或概念;对象类是指特性和其行为遵循同样规律的对象集合。特性是指对象或对象类共有特征的抽取结果。因此,数据元概念就是特定特征组合而成的,关于数据元的知识单元。在数据元概念中,基数1∶1表示一个对象类只具有一类特性。

图7-1 数据元基本模型

2.数据元基本模型

数据元概念加上表示成为数据元。在一个数据元中,一个对象类只具有一类特性(数据元概念),一类特性只能有一种表示(1∶1)。图7-1是数据元的基本模型。

根据数据元的表示不同,一个数据元概念可以对应多个数据元(1∶N)。例如,人体的体温,可以采用测量值表示,也可以将温度分6档表示(1:〈36℃;2:36~36.9℃;3:37~37.9℃;4:38~38.9℃;5:39~39.9℃;6:≥40℃),从而形成两个数据元。

3.数据元属性

数据元的特性以及表示构成数据元的属性,每一个数据元都需要若干属性对其特征和表示进行客观和完整的描述。

4.数据元表示

数据元表示由值域、数据类型、计量单位(如果需要)、表示类(可选)组成,用于表达数据元的取值,包括取值的允许值、类型和范围。

二、数据元属性基本模型

图7-2是数据元的基本属性模型,该模型采用两种准则对数据元的属性进行分组,分在同一组的属性共同拥有相似的基数和逻辑相关性。

图7-2 数据元基本属性模型

1.基数性准则

每一个数据元规范都可能包含0或1(0∶1)、1且仅是1(1∶1)、0或多(0∶N)个属性。

2.逻辑相关性准则

属性除了有相似基础类型外,还可能彼此依赖,或者说某种属性在没有其他属性存在的情况下不能存在。

三、数据元值域基本模型

图7-3是值域基本模型。

图7-3 数据元值域的基本模型

1.值域

模型中的值域是指数据元允许值的集合,一个允许值是某个值和该值的含义的组合,值的含义称为值含义。值域是一个或多个数据元有效值的集合,用于在信息系统或数据交换中确认数据的有效性。它也是描述一个数据元的元数据的必要构成部分。特别是值域是数据元所表示的数据内容、形式和结构的指南。值域分为可枚举值域和不可枚举值域两类。

(1)可枚举值域:

由允许值(值和它们的含义)列表规定的值域。一个可枚举值域是包含了它的所有值及关联含义的一个列表。每对值和含义称为一个允许值。每个值的含义称为值含义。图7-4是国家卫生行业标准WS363.14-2011《卫生信息数据元目录 第14部分:卫生机构》中的两个数据元。图7-4A是“机构分类管理类别代码”数据元,其允许值为代码1、2、9,分别表示非营利性医疗机构、营利性医疗机构、其他。采用代码(数字、字母等)表示允许值,适合于计算机处理。图7-4B是“卫生监督机构编制类别代码”数据元,其允许值是采用值域代码表的方式给出。当允许值数量较多时,可以采用代码表的方式。

图7-4 数据元值域的表示

采用数据元值域代码表,有助于数据元允许值的使用、管理和维护。与WS363-2011《卫生信息数据元目录》配套的WS364-2011《卫生信息数据元值域代码》,将WS363-2011《卫生信息数据元目录》中数量超过3个的数据元允许值整理为值域代码表,并以标准的形式发布。

“卫生监督机构编制类别代码”的数据元允许值,是在WS364.15-2011《卫生信息数据元值域代码 第15部分:卫生人员》的卫生监督机构人员编制类别代码表CV08.30.001中给出。

(2)不可枚举值域:

由描述规定的值域,不可枚举值域准确描述了属于该值域的允许值,例如“大于0小于1的全部实数”。

2.概念域

模型中的概念域是指对象类的特征集合(特性),因为特征需要通过有效的值含义来表示,概念域也称为值含义的集合。概念域分为可枚举概念域和不可枚举概念域两类。

(1)可枚举概念域:

由值含义列表规定的概念域。可枚举概念域的值含义可以明确地枚举,该类型概念域对应于可枚举类型的值域。

(2)不可枚举概念域:

由描述规定的概念域。不可枚举概念域的值含义由称为不可枚举概念域描述的规则来表述。这样,值含义并非明确列出,这个规则描述了不可枚举值域中允许值的含义。

描述数据有时需要使用计量单位,例如记录温度的计量单位(华氏度或摄氏度)、记录速度的计量单位(海里/小时或米/秒)等。如果一个计量单位的任何量可以转化为另一种计量单位下同等的量,则这些计量单位彼此之间是等价的。所有等价的计量单位被认为具有相同的维。例如,以上提到的温度单位华氏度与摄氏度,速度单位海里/小时与米/秒具有相同的维。

计量单位与值域关联,维与概念域关联。图7-3的数据元值域的基本模型给出以下基本原理。

(1)值域与一个概念域直接关联表示概念,一个概念域可以有多个值域来表示。例如人体温度这个概念,可以有多个值域表示,可以用体温的具体数值表示(如37.1℃、38.0℃等),也可以用区间范围表示(如〈37.0℃、37.0~39.0℃、〉39.0℃),还可以用“正常”“低热”“高热”状态描述表示。

(2)概念域和值域有两种(非互斥的)子类,可枚举和不可枚举的。可枚举通过列表来规定,不可枚举通过描述来规定。

(3)一个可枚举概念域可以有多个值含义,一个可枚举值域也可以有多个允许值,但一个允许值只与一个值含义关联(1∶1),即值域中的每个允许值在概念域中是有特定值含义的。这里继续以人体温度为例说明,人体体温这个概念,可以有多个值含义表示:具体数值、区间范围、状态描述,但每个值含义的允许值是一一对应的,如体温具体数值的37.1℃、38.0℃,区间范围的〈37.0℃、37.0~39.0℃、〉39.0℃,状态描述的“正常”“低热”“高热”。

四、元数据总体模型

数据元的元数据总体模型由概念层和表示层两个部分组成,见图7-5。概念层包括数据元概念类和概念域类,这两种类都表示概念。表示层包括数据元类和值域类,这两种类都表示数据值的容器。图7-5给出4个类的以下若干基本事实。

图7-5 数据元的元数据总体模型

1.一个数据元是一个数据元概念和一个值域的结合体。

2.多个数据元可以共享相同数据元概念,即一个数据元概念可以用多个数据元表示,这意味着一个数据元概念可以用多个不同方式表示。例如地址这个数据元概念,可以是患者地址、患者联系人地址、监护人地址等,即地址这个数据元概念可以用多个不同方式表示。

3.多个数据元可以共享相同的表示,即一个值域可以被不同数据元重复利用。例如患者地址、患者联系人地址、监护人地址等数据元可以使用相同的地址值域。

4.值域不是必然与一个数据元关联,可以单独管理。

5.不同值域的允许值所对应的值含义相同时,这些值域在概念上是等价或相关的,因此多个值域可共享一个概念域。

6.许多数据元概念可以共享相同的概念域。

对图7-5总体模型的理解,可以借助WS363-2011《卫生信息数据元目录》和WS364-2011《卫生信息数据元值域代码》。这两部标准,前者是数据元标准,后者是值域标准。如前所述,WS363-2011的部分数据元允许值(允许值数量超过3个时)在WS364-2011以代码表的形式给出。WS364-2011中的一个值域(允许值的集合)代码表,并非只与WS363-2011的一个数据元对应,不同的数据元可以使用同一个值域代码表。当然,前提是使用同一个值域代码的数据元,具有相同的数据元概念。在国家后续发布的卫生信息基本数据集中,部分新增加的数据元也采用WS364-2011中已有的值域代码。表7-1列出部分使用相同值域代码表的数据元。从表7-1中可以看到,使用相同值域代码表的数据元具有相同概念。

表7-1 使用同一值域代码的数据元