自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

2.3 语言理解体系

在论述了整个自然语言理解任务之后,我们再来看如何处理这些任务。语言理解与否,或深或浅,主要看实际需求是否得到满足,实际任务是否能以公认的标准得以解决。目前的语言理解都是建立在自然语言处理的基础上,首先我们给出一个基本的自然语言处理框架,如图2-14所示。该框架包括三部分:输入、模型和任务输出。根据自然语言使用场景需要,输入包括文本特征、文本知识库、多模态信息。针对待解决的任务引入各种相关特征,包括文本内容特征、外部的相关知识、音视频、图像等多模态知识,这些特征都会以特征空间中的表示进入语言理解模型。根据任务目标,迭代优化模型,最后选择一个最优模型。通过语言理解模型来解决单一任务或组合任务。这就是一个基本的自然语言处理框架。

图2-14 自然语言处理基本框架

结合上述自然语言理解任务需求,细化的语言理解框架如图2-15所示。其中,将原始输入通过特征工程建立特征集合,以符号表示或向量表示输入不同的算法模型,比如文本分类、文本匹配、文本生成模型等。通过迭代优化获得面向不同需求的文本任务的解决方案,逐级解决上述语法、语义和语用任务,最终形成了自然语言理解的完整体系。同理,该理解逻辑也适用于图像、音频、视频等多模态信息的智能处理任务。

图2-15 自然语言理解的逻辑体系框架