4.2.1 知识抽取的数据来源
如前所述,知识抽取是知识图谱构建的重要环节。进行知识图谱构建时,需要面向业务需求,从不同来源、结构的数据中进行知识抽取并生成知识图谱的三元组。那么,应如何获得知识抽取的数据来源呢?
当知识图谱在企业业务落地时,知识抽取的结果一定是服务于业务应用的需求的。因此,知识抽取的数据来源需要从业务需求出发,进行数据源搜索工作,服务于企业业务的三元组的模式与实例,相对于传统学术定义的三元组会有所差异。面向企业不同业务场景的知识需求,开发人员需要充分利用知识图谱符号语义及图拓扑结构表达能力完成知识体系设计、数据源整合及知识抽取等流程。在业务实践中,企业不仅需要实体-关系-实体的传统定义,还需要支持业务场景知识与数据的抽象定义,比如实体-概念-实体、事件-导致-事件、实体-属性-属性值等。回顾3.1节的内容,企业业务知识图谱可以由需求概念域、事理知识域及实体状态域聚合而成,那么在不同的领域中,可以从哪些渠道获取怎样的数据来源呢?
(1)在需求概念域,通过实体-概念-实体的定义,可以将人能理解的抽象概念进行关联,更好地聚合、关联业务需求与业务数据。比如在电商搜索场景中,实体-概念-实体可以更好地辅助商品搜索引擎进行语义分析,实现对用户意图的理解。因此,在商品搜索场景中,用户的搜索日志是商品知识图谱需求概念域中重要的数据来源。其他诸如产品需求文档、产品功能手册、术语手册、广告宣传文案、社区“种草”软文等,也都是需求概念域中重要的数据来源。比如产品需求文档的需求概览部分,通常会包括业务流程图和需求清单两部分。业务流程图对产品的整个业务流程进行图形化展示,是对产品整体功能与流程的阐释。而需求清单用于对本次要开发的需求任务分类,给出简明扼要的需求描述并标注优先级。业务流程图和需求清单的语义及拓扑结构,是概念抽取的优秀素材。需求概念域的数据来源以非结构化数据为主。
(2)在事理知识域,解决业务问题所需的逻辑规则、流程关联、专业知识被关联、聚合。事理知识通常以文本、图像、声音等非结构化数据形态存在,比如由文本、图像、声音组成的新闻事件系列报道,会包含新闻事件的时序关联、因果关联、逻辑关联等数据知识,而在企业公告、企业办公流程、政务及政策法规文件中,也包含大量的流程关联、规则逻辑等知识;又如在企业设备检修、运维等专业知识手册、设计图、指引视频中,会包含检修、需求的流程步骤、操作方法、处理经验等专业事理知识等。另外,在企业信息化建设中开发的产品功能逻辑图、时序图、软件开发UML、软件接口描述文档,也是重要的事理知识数据来源。业务的历史日志是企业事理知识图谱的重要数据来源。事件-因果-事件是事理知识域中典型的三元组,可以存储事件前后的因果逻辑关联。在医学领域,事件-因果-事件过去可能以病理关联概率图的形态存在,而现在可能以事理知识图谱的形态存在。而医学的事件因果事理关联,可以从医疗诊断、用户状态等日志中进行抽取获得。同理,设备的运维日志也是设备故障关联知识图谱重要的数据来源。
(3)在实体状态域,开发人员需要将业务实体类目体系、实体关联、实体状态属性数据建设为实体状态域的知识图谱。因此,实体状态域的数据来源主要是企业内外用户、商品、企业业务状态数据。在企业内部,用户、商品、企业业务状态数据主要来源于客户关系管理(CRM)系统、资源计划(ERP)系统、业务关系数据库、业务系统日志等。实体状态域的三元组通常以实体-关系-实体、实体-属性-属性值的形态存在,这类三元组结构可以更好地被传统的商业智能模型、用户画像应用、商品搜索应用、智能推荐等智能应用集成,并为其提供数据关联、图拓扑结构信息。因此,智能应用原来维护的数据库表、特征库也是实体状态域中重要的数据来源。在企业外部,企业业务状态数据来源于数据服务商、数据交易市场或者原始的互联网网页等公开数据,比如新闻舆情数据、金融投资数据库、行业垂直信息服务网站等。实体状态域的数据相对于需求概念域、事理知识域的数据,具有知识体系变化小、数据属性与关系变化频繁、数据分散且规模大等特点。比如在金融投资场景中,目标企业股价、产值、主营业务等属性数据、产品关系、投资人关系每时每刻都可能发生巨大变化。为了及时更新知识,企业需要从股票交易所、Bloomberg、Wind等新闻资讯服务平台、投资调研报告服务商、企业画像数据服务商处获得最新的企业实体状态数据。
需求概念域、事理知识域、实体状态域所需的非结构化、结构化的知识来源,不仅涉及繁重的样本标注成本,也涉及持续的模型调优及存储与计算资源支持。因此,企业级知识图谱需要有能承担这些高昂的数据及知识抽取成本的商业模式,才能有生存及持续发展的空间。比如,在股票投资博弈中,交易员需要从快速变化的环境中及时、准确地获得知识与数据。如果通过知识抽取构建的知识图谱可以提升交易员认知的效率与准确率,那么从提早决策中获取的收益,就可以作为知识抽取业务的价值。由此可见,在博弈越强烈的场景中,对知识抽取的需求越旺盛,投入成本的意愿也越强烈。
另外,知识抽取相关的会议与竞赛有消息理解会议(Message Understanding Conference,MUC)、自动内容获取(Automatic Content Extraction,ACE)、知识库填充(Knowledge Base Population,KBP)、语义评测SemEval等,知识图谱开发人员可以从中获取知识抽取学术研究相关的数据。