2.1 符号-连接-融合
20世纪20年代到60年代的近40年时间里,人们研究语言运用规律和认知过程,都是从客观记录的语言和语音出发的。20世纪60年代到80年代中后期,语言学、自然语言处理领域几乎都被理性主义(符号主义)类方法占据。符号主义是将自然语言用符号来表示(Symbol-based Representation),即将语言事实看作互相独立的符号,使用语言模型或模型组合表示语言。符号主义以乔姆斯基的形式语言为代表,可以精确地描述语言及语言结构。随着语义网络和数理逻辑的引入,使用这类方法能够方便地进行句法结构和语义关系的研究。符号主义结合专家经验设计语言学规则,构造逻辑推理程序,具有非常严谨的体系。在自然语言的计算机处理中,以词袋模型(Bag-of-Words,BOW)为文本表示方案,这种方案忽略文本中词顺序信息,将文本视为“一兜无序的词”,方便了词向量表示。如果在语言模型中将文本中词出现的顺序考虑进去,可以弥补词袋无序的问题。词袋模型广泛用于机器翻译、文本生成和信息检索等任务。总体来说,符号主义方法体系严密,但存在知识密集、鲁棒性差、学习泛化能力差,以及没有考虑符号丰富的语义信息等缺点。
语料库语言学的崛起推动了基于统计的经验主义的发展,诞生了连接主义。连接主义假定人脑有处理联想、模式识别、通用化的能力,利用感官输入和学习机制掌握自然语言结构,这类方法逐渐发展为统计自然语言处理。连接主义通过统计模型,特别是深度神经网络模型,学习复杂的语言结构。连接主义将离散符号映射为相对低维的连续向量,减轻了离散和数据稀疏的问题,同时也带来了丰富的语义信息。然而,连接主义面临着可解释性差的问题。此外,大规模的语料库标注带来的通用性和迁移性不足,也是其难点问题。
从20世纪90年代开始,人们将两种方法结合,以语言知识库、语言规则为辅助,结合深度学习和机器学习方法,开展自然语言理解实践。实践以不同的任务层次分别进行学习评估,建立客观公认的评估指标体系,进而以定量的方式研究机器的语言理解能力。下面我们将详细阐述语言理解的各项任务。