前言
临渊羡鱼,不如退而结网。
知识图谱就是一张网,一张基于现实世界的概念、实体、关系、属性构建起来的结构化知识网络。知识图谱作为人工智能的底层支撑和核心技术,能够“帮助”人工智能对现实世界中复杂、相互联结的数据进行理解与处理,使机器具备理解、分析和决策的能力,并且更加接近人类认知世界的水平,从而成功应用于智能搜索、推荐系统、知识问答、推理决策等领域。
本书从诸多中国古典著作中精选名句,并结合知识图谱技术精髓进行关联讲解,引导读者以哲学的思考方式来理解知识图谱的内涵,并使用知识图谱解决应用过程中出现的各种问题。
为什么要写这本书
2019年春天,随着大数据赋能业务逐渐兴起,科大讯飞大数据研究院大数据分析与算法团队开始响应公司号召,扎根于此业务,希望能够基于大数据分析与算法从海量数据中学习并自动决策,有效解决数据分析和挖掘瓶颈。而扎根业务以后,我们发现业务需求更多的是数据治理以及知识图谱等,需要通过构建行业知识图谱来支撑业务发展,以解决实际业务场景的问题。
2019年秋天,在机械工业出版社策划编辑的建议下,笔者决定和小伙伴们一起朝着新的目标努力——编写一本知识图谱构建与应用的书籍。
在本书的写作过程中,知识图谱技术也在不断变化。秉承大道至简的原则,我们一方面尽可能在知识图谱构建章节统筹各种概念,另一方面尽可能在实践章节跳出概念给出应用案例。笔者希望能抛砖引玉,以个人的一些想法和见解,为读者拓展出更深入、更全面的思路。
本书只是一个开始,如何基于海量数据使用知识图谱技术解决更多业务问题,还需要无数的知识图谱从业人员前赴后继,越过漫漫雄关,共同创造美好的知识图谱新时代。
本书特色
本书结合知识图谱的抽取、表示、融合、存储、建模、推理、评估等构建技术进行讲解,并在构建基础上基于实际业务进行抽象,最后给出知识图谱技术的应用案例。本书希望帮助读者完成知识图谱技术栈的学习和实践,以便读者厘清知识图谱相关内容,降低学习成本。
本书以通俗易懂的方式讲解知识图谱相关的知识,尤其对从零开始构建知识图谱过程中需要经历的步骤以及每个步骤需要考虑的问题,给出了比较详细的解释。
读者对象
(1)对知识图谱感兴趣的读者
伴随着人工智能时代的到来,很多工作都需要使用知识图谱分析与挖掘数据深层关系并有效推理知识。对这部分读者来说,本书的内容能够帮助他们加深对知识图谱的构建、应用场景和存在价值的理解。
(2)从事知识图谱构建、开发的人员
通过学习知识图谱实践案例,这部分读者可以掌握知识图谱构建、开发的方法,快速地构建知识图谱。可以说,本书提供了一条捷径,同时能够缩小知识图谱构建开发人员与算法研究人员之间的鸿沟,帮助他们掌握知识图谱相关知识。
(3)从事知识图谱算法、研究的人员
对从事知识图谱算法、研究的人员来说,通过本书他们能够身临其境地“体验”各种场景,了解各种知识图谱在不同场景下的优缺点,本书对他们解决生产环境中遇到的知识图谱、数据挖掘等问题有很好的借鉴作用。
(4)设计知识图谱架构及技术方案的人员
对设计知识图谱架构及技术方案的人员来说,本书能够帮助他们构建知识图谱的应用并进行效果闭环验证。读者只有对知识图谱的功能、效率、优缺点等有了全面的了解,才能在架构设计中综合考虑各种因素,设计出高效、稳定的知识图谱架构。
如何阅读本书
在结构安排上,本书分为“基础篇”“构建篇”“实践篇”,共16章内容,从知识图谱概念引出知识图谱构建技术,再到多个行业实践方案的设计思路与代码实现,层层推进,便于读者系统学习与落地应用。
基础篇(第1章),介绍知识图谱的定义、分类、发展阶段,以及构建方式、逻辑/技术架构、现状与应用场景等。
构建篇(第2~8章),详细介绍知识抽取、知识表示、知识融合、知识存储、知识建模、知识推理、知识评估与运维等,并结合实例讲解应用方法。
实践篇(第9~16章),详细讲解知识图谱的综合应用,涵盖知识问答评测、知识图谱平台,以及智能搜索、图书推荐系统、开放领域知识问答、交通领域知识问答、汽车领域知识问答、金融领域推理决策实践。
勘误和支持
由于笔者水平有限,撰写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。本书代码和数据目录:https://github.com/datadance/book3-kg.git。如果你有更多的宝贵意见,可以通过知识图谱技术交流QQ群435263033或者邮箱datadance@163.com联系我们,期待得到大家的反馈,让我们在知识图谱与人工智能征程中互勉共进。
致谢
感谢合作者李雅洁、彭加琪、程知远;感谢程礼磊、丁辉、丁可、郑英帅、李卫东、林发可、曹伟灿等技术专家,在本书写作遇到困难的时候,他们一直鼓励、支持我,并提供了宝贵的建议,使本书的质量更上一层楼。
感谢机械工业出版社的编辑,在我面临读博压力、二宝出生、团队解散的情况下,在我多少次徘徊在放弃边缘的时刻,他们始终鼓励与引导我,使得我最终完成全部书稿。
本书使用了部分互联网公开数据,包括IBDM电影数据、NLPCC开放数据、图书模拟数据、国泰安数据库上市公司数据等,在这里致以特别感谢。
最后,感谢我的爱人,她的激励给了我奋斗的信心和力量;祝愿我的大宝能够战胜自己,克服注意力缺陷;祝福本书写作期间出生的二宝于宜杨,她的微笑融化了我所有的辛苦,也让我的努力变得更有意义。
谨以此书献给努力奋斗的小伙伴,以及众多热爱知识图谱技术的朋友!
于俊