自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

前言

21世纪以来人类创造了海量的自然语言文本数据,但苦于没有“语言媒介大师”,即使拥有共同母语的双方也可能出现“语言隔离”,更不要说人机自然交互了。人类日常接触的语言可以分为通用语言和专业语言:通用语言往往口语化严重,语法杂乱,信息量不足;专业语言需要结合行业知识,有特定的文法,个性化突出。语言特征复杂多变,语种语义理解差异化明显,如何自动化、智能化地理解语言成为各行各业的痛点。自然语言理解应运而生!通过对人类语言信息的抽取、归纳、总结,自然语言理解成为最重要的人工智能成果的检验标准之一,被业内人士称为人工智能皇冠上的明珠。当然路要一步步走,语言的理解首先要解决语言处理问题。伴随海量用户数据(互联网数据、行业业务数据、百科和领域知识)、人工智能算法、集成AI芯片的规模算力平台不断涌入,自然语言处理领域已经树立了一座座里程碑。从早期的符号学派专家系统,到统计语言学习的兴起,再到Word2vec预训练语言模型将语义工具应用落地,各种深度学习框架(TensorFlow、Torch、Paddle Paddle)不断更新……我们似乎摸到了认知的大门。2018年,随着谷歌BERT预训练语言模型横空出世,语言理解领域也开启了“ImageNet”时代篇章。紧接着,XLNet、ERNIE、GPT-3等新模型,以及注意力机制、Transformer、图神经网络等新结构层出不穷,不断刷新各大任务榜单的记录(state-of-the-art,SOTA),推动了整个语言理解水平的持续发展。

当然,上述自然语言处理还需要语义知识的配合,基于语义知识搭建的知识图谱就成为行业应用的关键一环。知识图谱是在知识工程和语义网的基础上发展起来的,2012年谷歌正式提出了“知识图谱”一词,随后知识图谱逐渐成为互联网公司的底层基础设施之一。通用知识图谱主要有DBpedia、Freebase、YAGO、Wikidata等百科知识库。在吸收了WordNet、FrameNet、Hownet等语言知识精华后,ConceptNet、Concept Graph等常识知识图谱也不断涌现,为语言理解奠定了背景知识基础。随着知识图谱、多模态数据的引入,知识蒸馏和模型压缩进一步推动了语言处理和语义理解的应用步伐。目前,市面上已经常见面向C端用户的智能音箱、智能导航、智能客服、聊天机器人、机器翻译工具等产品,一些SaaS平台也处于初级体验阶段,这印证了自然语言理解行业的广阔发展空间。

自然语言理解当然不止于日常应用,它已逐渐向各行各业赋能,推动语言理解成果向行业转移、转化。面向B端的各垂直行业(例如金融、医疗、公安、电商等)及细分领域逐渐有相应的图谱产品落地。但是到目前为止,语言理解服务多体现为项目合作、平台调用、服务赋能,其工业落地效果面临更多的需求挑战。一方面供求双方在业务理解方面差距巨大,另一方面沟通合作也由于存在信息交互隔阂,这些都严重制约自然语言理解项目或产品落地。如何围绕行业需求,仍然需要结合行业知识构建知识图谱,将自然语言处理与知识图谱更好地融合,才能直击垂直行业落地应用的痛点。

站在自然语言理解需求爆发和落地困境的十字路口,我们该如何看待自然语言理解的优势与不足,如何更好地推动自然语言理解在垂直行业的应用落地呢?这正是本书想要重点探讨的目标。随着国家对人工智能、知识产权等行业的日益重视,我们将进入产业互联网和创新驱动的全新时代!创新需要保护和激励,创新知识需要挖掘和利用,而这些知识正沉积在以专利为代表的知识产权文本中,目前全球已经有超过1.2亿篇专利文本,等待知识图谱赋能。从这个行业视角进入,我们似乎可以揭开行业落地之谜。

本书通过对自然语言理解的思考和各类算法模型的阐述,结合对知识图谱的认知,讲解作者团队几年来在自然语言处理和行业知识图谱方向的实践经验,旨在抛砖引玉。本书即将付梓之时,一个新的生命也将诞生,谨以此书献给我们即将出生的宝贝。

这本书将始终是草稿的状态,如果有人问何时成稿,我们想说下一版!因为这个主题“Never-End Learning”。现在,我们仅期待本书可以帮助大家打开那扇大门,初步体验自然语言理解的行业落地之道。

本书主要内容

本书主要内容结构如下图所示,分为两部分,共8章。

自然语言理解部分包含第1~4章。

本部分首先阐述自然语言理解的发展脉络和理解逻辑,主要围绕语言符号、处理体系、语义理解等进行探讨,引出自然语言理解的自动分析原理和方法,包括自然语言特征、统计学习、机器学习、深度学习、知识图谱等。

第1章概述自然语言发展脉络,描述了语言理解的研究现状、商业形势、认知突破口和未来预测。

第2章梳理语言理解的演变流程,介绍我们面临的各类自然语言理解任务,最后给出语言理解的研究体系框架,引出自然语言理解的基础—自然语言处理。

第3章重点介绍自然语言处理相关特征工程和文本任务对应的各类算法模型、深度学习的前沿进展。语言处理需要考虑特征构造(字、词、句、章级别)和特征表示,以利于后续自动处理。在特征表示方面,从最早的符号表示到现在的张量表示,形成统计学习的基础。接下来结合统计学习框架,论述语言学习原理和语言模型,结合概率图模型和其他机器学习算法,阐述这些常规算法在自然语言处理任务中的应用和效果。然后进一步讨论深度学习的各类算法,对语言学习中的神经网络算法和最新成果进行分析。最后探讨现有处理方法的发展边界,提出引入外源知识(知识图谱)来提高认知能力的必要性。

第4章系统介绍知识图谱,包括知识图谱工程和知识图谱智能。然后梳理国内外常见的通用知识图谱,并进一步总结热门行业的知识图谱发展现状。最后结合语言知识和知识图谱的搭建流程,引入语义特征,通过行业文本实例操作,帮助读者了解语义理解的本质。

行业知识图谱部分包含第5~8章。

本部分在上述基本自然语言处理方法讲解的基础上,继续阐述行业知识图谱搭建和行业应用的方法。目前从事自然语言理解的公司都将精力放在通用文本理解上,这些文本往往口语化严重、特征杂乱、信息量不足,导致算法处理形成的最终产品的用户体验不佳。考虑到行业文本往往有一定规范,相对容易取得突破口,也有利于推动行业发展,所以我们选择从行业文本出发,以专利文本实操作为样板。

第5章介绍行业知识工程实践,以专利行业为例,详细地描述了一个行业知识工程建设的过程。首先基于自然语言处理和知识图谱搭建方法,建设行业知识库,包括术语库、产品库、技术库、标准库、规则库等,进而开发行业主题分析模型、行业文本分类算法、相似度计算方法、价值评估方法和机器翻译方法。

第6章介绍知识图谱模块的搭建,包括关键词助手、语义搜索、分级管理、高级分析、推荐和问答等。结合实际应用,探讨知识图谱在提高智能性方面的能力和效果。

第7章在前面知识工程和知识图谱智能基础上搭建智能应用平台,介绍了平台的各类功能组件,描述了自下而上的软件服务封装逻辑,进一步向上封装为行业文本分析功能组件,包括检索、分析、挖掘、管理、预警、运营等。读者可以将这套思路在各行业进行实践验证,将上述组件和权限、安全板块集成为应用平台,搭建常态化文本分析运营平台,完成平台级别或各细分模块的商业产品落地。

第8章依托智能应用平台,结合实践案例给出团队的应用经验,即通过四个行业案例来验证平台的认知能力。

本书的目标读者

本书以自然语言理解和行业知识图谱应用落地为目标,阐述了一个从0到1的行业文本理解案例。本书为互联网企业的智能平台构建提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的技术指导,适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。