第1章 绪论
1.1 语言智能处理简介
语言智能处理是人工智能领域的重要研究方向,涉及计算机科学、语言学、逻辑学、数理统计、认知科学等诸多学科,具有显著的跨学科特色。目前在计算机科学与人工智能领域,语言智能处理主要体现为自然语言处理(Natural Language Processing,NLP),是指利用计算机等工具分析和生成自然语言(包括文本、语音等),从而让计算机“理解”和“运用”自然语言。通过自然语言处理的一系列方法与技术,可以让人类通过自然语言的形式与计算机系统进行智能交互。
自然语言处理一般可以分为两个部分:自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。自然语言理解的目的是让计算机通过各种分析与处理,理解人类的自然语言(包括其内在含义)。自然语言生成更关注如何让计算机自动生成人类可以理解的自然语言形式或系统。自然语言处理的部分任务和应用场景如图1-1所示。
图1-1示意了自然语言处理过程所涵盖的词语、句子、篇章等多个语言层次。这些语言层次对应形态学、句法学、语义学和语用学等多个语言学分支,每个层次都具有很多典型的应用场景。事实上,自然语言处理早期也被称为计算语言学(Computational Linguistics),其研究对象几乎涉及语言学研究的所有对象:语音、形态、语法(句法)、语义、语用,研究内容包括针对这些对象的自动分析方法与技术,如词法分析、句法分析、语义分析等。自然语言生成也是计算机与人类通过自然语言进行交互的一种方式。其研究内容包括对于一个既定的形式化(语句意义)表达计算机如何产生自然语言语句这样的简单问题,也包括如何从人类大脑的意义映像出自然语言表达的复杂处理过程。近年来,随着深度学习技术的快速发展和海量数据的激增,语言智能处理又进一步细化为针对文本到文本、数据到文本、图像到文本等多种模态形式的具体研究方向,其具体任务场景的实现往往是一个复杂的系统工程。
图1-1 自然语言处理的部分任务和应用场景