4.1.1 知识图谱的构建流程
在流程方面,知识图谱的构建通常包括知识抽取、知识融合、质量控制等基本步骤。知识图谱通过知识体系设计,已定义了业务领域的基本认知框架,明确了在业务领域中有哪些基本概念、事理关系及业务相关实体。实体抽取和关系抽取是知识抽取的典型工作。在非结构化知识抽取中,前者从文本中识别业务目标的实体,后者获取两个实体之间的语义或者逻辑关系。由于知识抽取来源多样,从不同来源得到的知识不尽相同,所以对知识融合提出了需求,包括实体对齐、属性融合、属性值规范化等。当进行知识图谱构建时,还要对知识图谱进行质量控制,对缺漏、错误、陈旧的知识进行补全、纠错与更新。
图4-1展示了设备领域中设备知识图谱构建的流程示例。比如开发人员经过对运维、检修等业务场景、业务数据的理解,建立了设备知识图谱的知识体系。如前所述,知识体系的定义过程类似数据治理体系的元数据定义过程,即对数据库中的表名和表中的字段名进行确认,进而在知识体系的约束下为知识图谱填充数据。知识图谱由(实体,属性,属性值)(实体,关系,实体)等三元组构成,比如变电站、生产厂家可以被定义为实体,电站名称、投运日期可以被定义为设备属性。变电站、主变压器的直接物理连接、逻辑连接可以被定义为关系。
图4-1
(1)在知识建模方面,在设备知识体系的约束下,开发人员需要建设知识抽取与知识融合能力,指将企业数据中心、企业业务系统中的结构化数据和非结构化数据构建为设备知识图谱。设备知识图谱由变电站所属站、设备的属性及属性值、变电站之间的关系组成。
(2)在知识抽取方面,抽取任务通常包括实体抽取、关系抽取、属性抽取、特征抽取。在知识抽取的算法方面,传统的经典模型包括CNN、PCNN、BiLSTM,而运用Bert、ELMo等预训练模型可以改善效果。样本建设是知识抽取的关键模块,不仅需要组织专家进行人工标注,还需要通过远程监督、数据集精选等方法提高样本质量、降低样本构建成本。知识抽取任务需要底层平台的支持,需要在企业数据中台、企业AI中台的基础上,从企业数据仓库中获取数据,并通过数据ETL、知识抽取、加工数据,将知识抽取结果存入HDFS等存储介质。
(3)在知识融合方面,知识融合的任务通常包括设备ID映射、知识体系对齐、知识实例对齐。设备ID映射是极具挑战性的工作,比如同一设备在不同的业务维表中有不同的数值、语义描述。因此设备ID映射任务不仅需要结合设备的节点数值、语义等多模态信息,还需要运用图拓扑结构等额外信息。知识体系对齐和知识实例对齐是知识融合的关键任务,知识抽取的三元组不仅需要在知识体系上与其他来源及知识存储的知识体系对齐,还需要在知识的实例层面,解决实体歧义、属性歧义、属性值冲突等多个极具挑战性的问题。知识融合需要通过由数据分桶、数据匹配、数据融合等子流程组成的知识融合任务,将分散、冲突的知识图谱三元组转化为可入库的数据结构。
图4-2展示了业内医疗知识图谱的构建流程,其核心流程是在多数据源的基础上进行知识抽取与知识融合。
图4-2
医疗知识图谱的数据知识可以从医疗教材、医疗临床数据、医疗问答数据及医学文献等渠道获取。其中,医疗临床数据通常被存储于EMR、HIS等医院的数据仓库中,需要通过结构化知识图谱构建的流水线,将用户、药物、治疗流程等数据根据临床诊断、药物开发等业务知识体系进行数据清洗、知识抽取与知识融合。而医疗教材、医疗问答数据及医学文献,通常包含文本、图像等非结构化数据。在文本方面,可以通过实体、关系、属性等非结构化知识抽取方式,获得知识抽取结果;在图像、视频等复杂知识形态方面,可以通过图像识别分类、人类专家梳理方式获得知识图谱三元组。对不同来源的三元组,需要进行信息置信度分析,包括对数据源置信度与答案置信度的分析。信息置信度可以帮助知识融合系统评估知识的质量,使其在进行融合工作时构建更优的知识筛选策略,将生成的医疗知识图谱根据知识体系存储在图数据库中。
通过上述整体流程,企业可以将多来源的数据转化为在医疗问答、医疗搜索、药物研发等场景中可用的医疗知识图谱。