Python自然语言处理(微课版)
上QQ阅读APP看书,第一时间看更新

1.2.2 发展历程

自然语言处理发展历程如图1-3所示,大致分为以下三个阶段。

图1-3 自然语言处理发展历程

第一阶段:1950—1990年,基于语言学规则的语言处理技术。

通过用计算机程序设计语言、制定一系列的规则表示人类语言。1948年,香农把离散马尔可夫过程的概率模型应用于描述语言的自动机,同时又把“熵”的概念引入自然语言处理。克莱尼在同一时期研究了有限自动机和正则表达式。1956年,乔姆斯基提出了上下文无关语法,导致了基于规则和基于概率两种不同的自然语言处理方法,使得该领域的研究分成了采用规则方法的符号派和采用概率方法的随机派两大阵营,进而引发了其后数十年有关这两种方法孰优孰劣的争执。同年,人工智能诞生以后,自然语言处理迅速融入了人工智能的研究中。随机派学者利用贝叶斯方法等统计学原理取得了一定的进步,符号派也进行了形式语言理论生成句法和形式逻辑系统的研究。这一时期,多数学者注重研究推理和逻辑问题,只有少数学者在研究统计方法和神经网络。1967年,美国心理学家Neisser提出了认知心理学,从而把自然语言处理与人类的认知联系起来。

第二阶段:1990年—2010年,基于统计的机器学习处理技术。

运用统计模型和语料库进行自然语言处理,统计学习方法其实就是机器学习的别称,其中,基于隐马尔可夫模型的统计方法和话语分析在这一时期取得了重大进展。20世纪90年代以后,随着计算机的速度和存储量大幅提高,网络技术的大力发展,语音和语言处理的商品化开发成为可能,基于自然语言的信息检索和信息抽取的需求变得更加突出,自然语言处理不再局限于机器翻译、语音控制等早期研究领域。

第三阶段:2010年至今,基于神经网络的深度学习。

从20世纪90年代末起,人们逐渐认识到仅基于规则或基于统计的方法,无法取得成功。基于神经网络的深度学习被应用于自然语言处理,取得了较好的结果。