自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

1.1.2 机器处理

自然语言由语言符号(如汉字)序列构成,存在表达丰富、抽象感知、理解复杂的特点,特别是离散性、组合性和稀疏性特征明显。要实现对自然语言语义的理解,需要建立对该文本背后的语义结构的预测。自然语言理解的众多任务,包括并不限于中文分词、词性标注、命名实体识别、共指消解、句法分析、语义角色标注等,都是在对文本序列背后特定的语义结构进行学习和推断。例如,中文分词就是在原本没有空格分隔的句子中增加空格或其他标识,将句子中每个词的边界标记出来,相当于在文本序列上添加了某些结构化语义信息,从而分离出表意更清楚的词汇。

落眼当下,以快速计算、存储为目标的计算智能已经基本实现。近几年在深度学习推动下,以视觉、听觉等识别技术为目标的感知智能也取得不错的结果。然而,相比于前两者,基于语言理解的认知智能实现难度较大。机器如何像人一样“思考”,对数据和语言具有推理、解释、归纳、演绎等能力?关键就在于如何处理复杂的自然语言现象。由于工程化、实用化需要,在20世纪80年代后期用计算机处理人类自然语言任务已经成为趋势。其中基于语料库的统计方法发挥了重要作用,经过归纳、比较和评价,计算机开始逐渐用于解决文本分析、搜索推荐、人机交互、深层关系推理等实际问题[3]