第一节 医学术语概述
一、医学术语
医学信息学领域,医学术语对医疗信息化系统的重要性逐渐受到更多的重视。在过去的四五十年里,医疗信息化厂商在各自的系统里构建“字典”来解决对医学术语的需求。当这种字典规模比较小的时候,问题不是很显著;但当系统的功能和复杂性增加的时候,创建和维护统一的标准术语体系成为重中之重。例如,当电子病历系统与医学诊断专家系统协同工作的时候,为了实现二者的有效整合,需要自动化地将患者信息传输到专家系统。尽管两个系统是由同一厂家开发的,电子病历系统与专家系统术语体系的差别也会成为二者协同工作的障碍。
随着大数据时代的到来,医疗健康已成为大数据应用的重要领域,医疗健康大数据可应用于疾病的辅助诊断、治疗方案确定、流行病预测、药物副作用分析、医学临床研究等诸多方面。在医疗数据处理过程中,各医疗机构之间甚至医疗机构内部存在严重的信息孤岛问题,即各家医疗机构都在使用彼此不同的医学术语体系以及不同的编码体系。由于疾病描述的复杂性和医生知识背景的差异,现实当中的医生对于同一种疾病、同一种症状都可能采用不同的记录方式,这样记录下来的医学文档中的医疗信息,无论是从形式上,还是从语义上,均会存在一定的歧义。在这种情况下,即使临床信息汇聚到了一起也是难以有效聚合。概念表达缺乏语义规范,不仅为医疗大数据的整合带来了障碍,也为医疗大数据的分析检索,以及更高层次的医疗大数据应用带来了障碍。在大数据时代,我们需要对医学知识进行有效的、标准化组织,对其中的医学信息进行有效标引,从而达到二次利用的目的。
术语(Terminology)是界定特定领域或学科中使用的概念的指称及其定义的集合。术语是通过语音或文字来表达或限定科学概念的约定性语言符号,是思想和认识交流的工具。
术语具有以下特性:
1.专业性
术语是表达各个专业的特殊概念,所以通行范围有限,使用的人较少。
2.科学性
术语的语义范围准确,它不仅标记一个概念,而且使其精确,与相似的概念相区别。
3.单义性
术语与一般词汇的最大不同点在于它的单义性,即在某一特定专业范围内是单义的。
4.系统性
在一门科学或技术中,每个术语的地位只有在这一专业的整个概念系统中才能加以规定。
5.本地性
术语往往由本民族使用的文字构成的词汇(包括一些词素)构成。
医学术语是指医学领域使用的术语(名词、医学名词),通俗讲,医学术语就是医学领域各种医学概念的标准化的表现形式。有了这样的标准化表现形式,可以让使用者(医生或患者)在其头脑中形成统一的认知。
经过多年的发展,有大量的医学术语体系产生。表5-1列举了目前国际上已经形成的一批受到广泛认可、应用效果良好的医学术语体系:
表5-1 多种医学术语体系举例
美国哥伦比亚大学James Cimino教授于1998年发表的文章[1]详细介绍了构建医学术语体系应该注意的12条准则。
1.内容的丰富性内容丰富度是最重要的评价因素之一,往往一款术语体系受到挑战或者质疑也首先都是针对其内容不够全面。
2.概念定位(concept orientation)即每个概念有且仅有一个临床含义,且这个临床含义也仅与一个概念相对应。
3.概念的永久性(concept permanence)当一个概念有了明确的含义,其必然的结果就是概念(即其临床含义)本身不能随意改变。概念的首选名称可以不断演变,概念也可以被设置为有效和失效,但其临床含义是不变的。
4.无语义的概念标识符用一串数字来代表一个概念。一方面,可以节省一定的存储空间;另一方面,当一个概念有多个同义词时,用标识符来代表一个概念,可以方便地调整首选词。
5.复合层级结构(polyhierarchy)即一个概念拥有多个父概念或者属于多个分类。
6.形式化定义(formal definition)即概念表示为与词表中其他概念的关系的集合的形式。例如肺炎球菌肺炎可以定义为“是一种”(is a)“肺炎”,且由“肺炎链球菌”所“引起”(caused by)。
7.回避“未分类概念”(not elsewhere classified,NEC)由于任何的词表都不能保证涵盖领域内所有内容,于是某些受控词表采用未分类概念来表示无法用现有概念代表的临床含义。使用未分类概念的问题在于,它不可能有形式化定义,同时随着整个受控词表的演变,“未分类概念”本身也在变化,会导致语义漂移问题。
8.多重颗粒度(multiple granularity)受控词表的使用者在选取一个概念的时候头脑中都会有一个特定的目的,为满足这样的目的,受控词表中应该能够拥有多种不同语义范围的概念,从而满足使用者的要求。
9.多重一致的视图为满足不同的应用需求,多种不同颗粒度的概念可以实现不同程度的聚合。
10.临床语境(context)临床语境与临床含义对一个临床过程或者临床事件的描述都非常重要。充分挖掘和发挥电子病历信息,需要有相应的内容来表达临床语境。
11.适度地演进受控词表不可避免地要随着时间不断演进。相应的变化需要用详细且清晰地描述进行记录其改变的内容和原因,从而使用者可以理解相应的变化。
12.识别冗余所谓冗余,即相同的信息可以用不同的方式进行记录。冗余是不可避免的,例如同义词,但需要防止相同的信息被不同的方式编码(coded)。
医学临床术语系统化命名法(SNOMED CT)作为一种临床术语,它的设计遵循了上述12条准则,本 章着重介绍SNOMED CT的基本原理。
二、SNOMED CT简介
医学临床术语系统化命名法(systematized nomenclature of medicine-clinical term,SNOMED CT)是当前国际上广为使用的规范化临床医学术语标准,最初由美国病理学会研制开发,2007年转由国际医疗卫生术语标准发展组织(IHTSDO)负责维护和推广,2017年初转由SNOMED International负责其运营。SNOMED CT通过将临床术语编码化来实现全球医疗信息交换,能满足临床工作者、不同的利益相关者的多种多样的需求。
(一)SNOMED CT结构框架
SNOMED CT是世界上最全面、多语言的临床医学术语产品,包含19个临床领域,超过34万个概念,在超过50个国家使用[2]。SNOMED CT的内容主要由概念、描述、关系三部分组成,并提供表达式、映射、参考集和扩展等机制以灵活的支持不同的应用需求,SNOMED CT结构框架如图5-1所示。
1.概念
概念作为SNOMED CT的核心部分。每个SNOMED CT概念都代表一种独特的临床含义,并且具有唯一的数字标识符来标识。所谓临床含义,即人们头脑中对某一医学概念的认知,例如左肺肿块;标识则是对这一临床含义的唯一代号,是一串无临床含义的数字,主要为计算机计算和存储目的而设立。SNOMED CT的概念均以层级结构进行组织,形成一种有向无环图(directed acyclic graph),这样的方式可以让所有的概念按照其所代表的临床含义的颗粒度大小进行组织和排列[3]。图5-1中概念的颗粒度(代表的临床含义范围)从左到右逐渐变细,同时表达的临床含义也逐渐更加精准。有关SNOMED CT概念的详细介绍,详见本章第二节相关内容。
2.关系
SNOMED CT中的关系是两个概念之间的联系,并且用计算机可以处理的方式对概念的含义进行逻辑定义[3]。早期的SNOMED CT版本中,关系类型包括如下类型。
(1)定义关系:
定义了描述概念所需的必要条件,包括如下两种类型:①子类型关系(is-a relationship);②属性关系(attribute relationship)。
(2)非定义关系:
定义了描述概念所需的非必要条件,包括如下三种类型:①修饰关系(qualifier relationship):包括一些修饰词,如有关疾病轻重程度(mild、severe)、发病缓急程度(acute、subacute)等;②演变关系(historical relationship):表示概念的演进变化;③补充关系(additional relationship)。
SNOMED CT本身也是在不断的发展和变化中,最新版的SNOMED CT官方版本中主要使用定义关系,非定义关系已经失效,这一点提醒读者注意。有关SNOMED CT关系的详细介绍,详见本章第二节SNOMED CT相关内容。
图5-1 SNOMED CT框架设计
3.描述
为了让概念更容易理解,每一个概念都会有一套与之对应的描述(description)。在每个语言版本中,每个概念至少有两个描述,一个(些)是完全指定名称(fully specified name),另一个(些)是可接受名称(acceptable name),后者解决了同义词的问题。有关SNOMED CT关系的详细介绍,详见本章第二节相关内容。
4.属性
属性(Attribute)也可称为关系类型(relationship type),用来代表概念含义的某一方面特征。
5.标识
标识是一个唯一的代表SNOMED CT组件(包括概念、关系和描述)的数字。标识分为短格式和长格式,见图5-2。
图5-2 SNOMED CT标识,包括短格式标识和长格式标识
(1)短格式:
适用于由SNOMED International维护的国际版本(international release)中的组件。条目标识是随机产生的一串无临床含义的数字。分区标识用来区分该组件的类型,“00”代表此组件为概念;“01”代表此组件为描述;“02”代表此组件为关系。
(2)长格式:
适用于SNOMED International以外的机构维护的版本中的组件。与短格式的区别在于长格式中增加了用于区别不同的结构的命名空间标识(namespace identifier)。长格式的分区标识不同于短格式,“10”代表此组件为概念;“11”代表此组件为描述;“12”代表此组件为关系。
无论是长格式还是短格式,最后一位都为校验位。SNOMED CT使用Verhoeff's Dihedral Group D5校验法,以保证系统完整地接收了这个标识。
需要强调的是,SNOMED CT作为一款临床术语,其标识采用了“无临床含义”的编码方式,即无论是长格式标识,还是短格式标识,其条目标识均是一组随机数字,与该标识所代表的临床含义无任何关联。分区标识仅代表该概念是哪一种类型的组件,这一点明显区别于分类体系(如ICD)。
6.层级结构
SNOMEDCT中根概念为|SNOMED CT con c ep t |,所有其他的概念都是根概念的子类 型(subtype),即根概念是所有概念的超类型(supertype)。根概念的直接子概念叫作顶层概念(top-level concept),顶层概念是层级结构的主要分类,它以及它所属所有的子概念形成了SNOMED CT层级结构中一 个个主要分支。如图5-1所示,SNOMED CT一共有19个顶层概念,详细介绍请参见本章第二节相关内容。
(二)SNOMED CT应用领域
SNOMED CT通过提供语义丰富的临床术语来满足各种应用需求。
1.参考术语、界面术语和本体
(1)参考术语:
是用来对某一领域的知识准确和完整地呈现,包括实体、其所代表的含义以及实体间的相互关系。每个概念都有正式的计算机可读的定义,从而支持数据整合和检索。
(2)界面术语:
可以进行数据的录入,可以让临床医生系统化地对患者信息标准化的录入计算机系统,它是临床医生相对口语化的描述与计算机系统底层的参考术语之间的桥梁。
(3)本体:
是根据领域概念的本质和相互关系,通过构建领域概念之间的层级关系,对某一领域的知识进行结构化的组织。SNOMED CT是一种按照本体方式构建的医学术语体系,它既可以作为参考术语,也可以作为界面术语使用[4-7]。
2.电子病历
SNOMED CT作为术语词典支持电子病历后结构化处理和存储、辅助医生医嘱录入、语义检索[8-10]。
3.临床决策支持
辅助生成诊断方案、创建医疗警报如药物过敏等供医生临床诊断[11-16]。
4.医疗数据互操作
SNOMED CT作为编码系统应用于各医疗机构,促进医疗数据互操作[17-19]。
5.统计分析
基于SNOMED CT语义丰富临床概念及多层级结构提供更准确的统计分析报告[3]。
(1)个体分析:
SNOMED CT可以通过构建病史小结、决策支持和就诊报告的方式对医疗个体提供数据分析方面的支持。
1)病史小结:
患者的就诊通常会发生在多家医疗机构;即使在同一家机构就诊,也会有多次就诊、多种医疗系统/设备间数据整合的问题。SNOMED CT可以作为一种通用的参考术语,对不同的术语体系进行交叉映射;同时,SNOMED CT的复合层级结构和描述逻辑可以支持概念整合。
2)决策支持:
临床辅助决策支持系统(CDSS)可以帮助医生在进行个体照护或治疗时,提供对医生给出的治疗或者照护方案与指南、临床路径等标准化的治疗方案进行比较的功能,从而帮助医生快速、高效地服务于患者。SNOMED CT可以在CDSS中发挥重要作用。
3)就诊报告:
无论是在诊前、诊中、诊后等各个环节,临床医生都需要向患者提供诊治报告。SNOMED CT的复合层级结构及丰富的与其他术语体系的交叉映射能力,可以实现数据的“一次收集、多次复用”,从而在就诊报告环节提供帮助。
(2)群体分析[3]:
SNOMED CT对群体分析的支持包括:首先,凭借SNOMED CT广泛的医学概念的覆盖,能够对临床细节进行充分描述,从而实现临床数据的准确采集;其次,作为参考术语,实现分散数据来源的数据整合。同时,凭借其丰富的同义词、层级结构以及基于医学逻辑的概念定义,SNOMED CT可以支持语义搜索。
1)趋势分析:
是一种收集一定量不同时间点的信息,去除信息中的噪声,以期发现信息内部趋势的分析方法。这会用到SNOMED CT的复合层级结构、概念模型以及包含关系。
2)药物警戒性:
收集、检测、评估、监控和预防在使用药物过程中所发生的副作用。这会使用到复合层级结构、定义关系进行概念聚合;同时,也会与MedDRA进行相互映射。
3)临床审计:
通过系统性回顾诊疗过程与相关诊治标准的一致性,从而提高患者诊疗以及相关临床结局。这会使用到复合层级结构、定义关系进行概念聚合,以及与其他编码系统进行相互映射。
(3)临床分析:
临床分析是医学中对药物、设备、诊断性产品及治疗方案在人体使用中的安全性和有效性的研究,可以对疾病进行预防、治疗和诊断。与治疗方案在临床实践不同的是,临床研究主要是收集临床证据,以扩展相关人员对新型治疗或者患者管理方案的了解,从而明确治疗或者管理方案的价值。
(4)语义搜索:
随着大量的医学文献和临床报告的产生,基于临床含义的搜索变得越来越重要。自然语言处理技术的一个主要应用就是对自由文本中的信息建立索引,从而可以进行“主题相关”的搜索。其中的挑战在于需要超越以往的关键词搜索策略,让搜索结果具有很高的敏感性和特异性。例如:“请搜索系统中所有肺部疾病的患者”或者“请显示系统中所有心率异常的患者列表”。
(三)SNOMED CT的受益对象
SNOMED CT在医疗领域的不同应用,医疗领域的各个参与者都是受益者。
1.患者
标准化并共享个人健康档案及电子病历,减少重复检查和治疗,提高个人诊疗效果。
2.民众
通过数据共享提高民众疾病监测水平及疾病预防能力。
3.临床医生
辅助医生临床诊断,减少误诊情况。
4.医疗机构
优化医疗机构资源分配。
5.政府及研究机构
基于SNOMED CT提供更精确的统计分析报告及研究报告。
三、SNOMED CT与ICD
(一)ICD发展与简介
国际疾病分类(international classification of diseases,ICD)是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分类,使其成为一个有序的组合,并用编码的方法来表示的系统。ICD已有120多年的发展历史,早在1891年为了对死亡进行统一登记,国际统计研究所组织了一个对死亡原因分类的委员会进行工作,1893年该委员会提出了一个分类方法《国际死亡原因编目》,此即为第1版。以后基本上10年修订一次,ICD-10是现在全世界通用的版本。2018年12月,基于本体模型的ICD-11问世,我国已开始着手准备使用这一最新版本。
(二)SNOMED CT与ICD-10
表5-2 SNOMED CT与ICD-10对比
作为疾病统计、汇总及分析的重要工具,ICD-10在各个国家都起到了非常重要的作用。大数据时代,“沉睡着”的大量电子病历中结构化和非结构化的临床信息需要进行“带有临床含义的二次利用”(meaningful reuse),这需要一套具有丰富的临床语义关系的术语体系来实现。从表5-2的对比可以看出,SNOMED CT与ICD在使用场景、使用者、概念范围、颗粒度及分类方式方面,均有很大的不同,医疗信息化从业者在进行临床大数据分析及利用时需要正确选择。
续表