1.2.2 知识图谱的定义
在学术领域,知识图谱指一种用图网络将不同语义符号进行关联所形成的符号网络。知识图谱由实体及其之间的各种关系组成,实体可以是人、设备及企业,而关系可以是人的社交关系、设备的网络关联、企业的资金关联等。知识图谱的组成元素,按使用场景的不同,会有属性、属性值、概念、上下位词、事件等扩展或细分定义。知识图谱是一种通过图链接的抽象符号来表示物理世界和认知世界的方式,并作为不同个体认知世界、交换信息的桥梁。
知识表示指以一种人、计算机可以接受的数据结构来描述知识。从早期的专家系统时代,到语义网时代,都采用了以符号逻辑为基础的知识表示方法。
知识图谱通常用(主语、谓词、宾语)三元组来表示知识,如(世界卫生组织,总部,瑞士日内瓦)表示“世界卫生组织的总部设置在瑞士日内瓦”。图1-4展示了知识图谱的三元组示例。这种三元组表示知识的方法虽然被广泛使用,但是在知识表示能力和知识应用便捷性方面都受到了极大的限制。
图1-4
从知识图谱中实体类型与认知智能应用的角度,知识图谱可以分为人、物、企业三大领域。这三大领域是企业的不同业务领域需求、事理知识、商业应用的核心连接点。尤其在企业数据智能转型战略中,建议将围绕人、物、企业的认知能力作为业务的核心目标。
知识图谱从知识来源和应用场景的角度,可被整体分为开发域知识图谱与行业(垂直)知识图谱两种。知识图谱是行业领域性非常强的系统性工程,在知识图谱与认知智能落地的过程中,知识治理和认知应用是绑定行业进行的。
开发域知识图谱主要用在百科知识方面,例如语义网、WordNet和Freebase。开发域知识图谱的本体和知识常来源于百科网站,数据来源常为半结构化的网页数据,强调知识的广度,对知识的质量容忍度较高,主要应用场景是搜索与问答。
行业知识图谱的本体来源于专家经验和领域专业文档,数据来源丰富,形态多样,有结构化数据、半结构化数据和非结构化数据。行业知识图谱主要面向行业中企业的研发、生产、供应、营销、服务等业务应用,因此对知识的深度和质量都有相当高的要求。
行业知识图谱是关于某个行业领域的知识图谱,例如金融、医疗、工业等领域,这些专业领域中的企业希望将行业中的研究对象、研究方法、研究结果以知识库与知识推理的方式存储下来,即将所有过程都用知识图谱的方式梳理清楚,形成统一的表达,从而形成知识的复用。行业知识图谱来自垂直行业,包含企业海量的结构化数据和非结构化数据,与开发域知识图谱相比,对知识的准确性要求更高。行业知识图谱的目标是通过符号和图网络实现对人类专家经验等复杂信息的存储与表达,并支持通过机器高效地读取和分析这些信息。
具体来讲,在企业数据智能应用实践中,知识能以知识图谱的形态进行聚合管理。知识图谱可以对企业的分散数据进行连接和聚合,将企业大量的数据表、非结构化数据以业务需求、事理知识、实体状态的知识图谱形态管理起来。随后可以基于知识图谱构建产品应用,通过可视化交互方式,让人和机器形成对知识的互通与理解,推进人机协同。值得关注的是,知识图谱的建设成本高昂,因此在企业数据智能实践中,只有从组织管理、数据智能应用、信息系统等多方面进行协同建设,才能将企业级知识转为可用的知识图谱。