TensorFlow与自然语言处理应用
上QQ阅读APP看书,第一时间看更新

1.4 第二阶段:偏实践应用的经验主义

该阶段NLP的特点是通过数据语料库和(浅)机器学习、统计或其他方法来使用数据样本(Manning和Schtze,1999)。由于自然语言的大部分结构和理论被数据驱动的方法所忽视或抛弃,所以这期间发展起来的主要方法被称为经验的(或实用的)方法(Church and Mercer,1993;Church,2014)。随着机器可读数据可用性的增加和计算能力的不断提高,从1990年开始,经验方法一直主导着NLP。其中一个主要的NLP会议甚至被命名为“自然语言处理中的经验方法(EMNLP)”,以最直接地反映出NLP研究人员在该阶段对经验方法的强烈(积极)倾向性。

与理性主义方法相反,经验方法假设人类思维只从联想、模式识别和概括的一般操作着手。为了使得大脑更好地学习自然语言的详细结构,需要存在丰富的感官输入才可以。自1920年以来,经验主义在人口学中普遍存在,自1990年以来经验主义也一直在复苏。早期的NLP经验方法侧重于开发生成模型,如隐马尔可夫模型(HMM)(Baum和Petrie,1966)、IBM翻译模型(Brown等,1993)和脑部驱动的解析模型(Collins,1997)从大型语料库中发现语言的规律性。自20世纪90年代末以来,判别模型已成为各种NLP任务中实用的方法。NLP中的代表性判别模型和方法包括最大熵模型(Ratnaparkhi,1997)、支持向量机(Vapnik,1998)、条件随机场(Lafferty等,2001)、最大互信息和最小分类误差(He等,2008)和感知器(Collins,2002)。

同样,NLP中的经验主义时代与人工智能以及语音识别和计算机视觉中的方法相对应。这是因为有明确的证据表明,学习和感知能力对于复杂的人工智能系统至关重要,但在前一波流行的专家系统中却缺失了。例如,当DARPA开启其首次自动驾驶大挑战时,大多数车辆依赖于基于知识的人工智能范式。与语音识别和NLP非常相似,自动驾驶和计算机视觉研究人员立即意识到基于知识范式的局限性,因为机器学习必须具有不确定性处理和泛化能力。

NLP中的经验主义和第二阶段中的语音识别是基于数据密集型的机器学习,我们现在称之为“浅层”机器学习,因为这里通常会缺少由多层或“深层”数据表示构成的抽象,第三阶段深度学习方面将在后面继续开展。在机器学习中,研究人员无须关注构建第一阶段期间基于知识的NLP和语音系统所需的精确度和正确规则。他们关注统计模型(Bishop,2006;Murphy,2012)或简单的神经网络(Bishop,1995)作为潜在引擎。然后,他们使用充足的训练数据自动学习或“调整”引擎的参数,以使它们处理不确定性,并尝试从一个场景推广到另一个场景,从一个域到另一个域。用于机器学习的关键算法和方法包括EM、贝叶斯网络、支持向量机、决策树及用于神经网络的反向传播算法。

现在回过头来看,基于机器学习的NLP、语音识别和其他人工智能系统,比早期的基于知识的对应部分表现更佳。诸如一些成功的例子,包括机器知觉中的几乎所有人工智能任务——语音识别(Jelinek,1998)、人脸识别(Viola和Jones,2004)、视觉对象识别(Fei-Fei和Perona,2005)、手写识别(Plamondon和Srihari,2000)和机器翻译(Och,2003)。

具体来看,针对机器翻译应用方面,传统方法还是以统计方法主,我们也会在本书的第11章对机器翻译部分做详细解读

双语训练数据中句子级对齐的可用性使得不通过规则而是直接从数据中获得表层翻译成为可能,代价是丢弃或忽略自然语言中的结构化信息。当然,在本阶段的后续发展中,机器翻译的质量也得到了显著提升(Och和Ney,2002;Och,2003;Chiang,2007;He和Deng,2012),但还是没有达到现实世界中大规模部署的水平(后续深度学习阶段将会继续探讨)。

在NLP的对话和口语理解领域,这个经验主义时代也以数据驱动的机器学习方法为显著标志,这些方法非常适合于定量评价和具体可交付成果的要求。他们关注的是文本和域的更广泛但肤浅的表层覆盖,而不是对高度受限的文本和域的详细分析。我们训练数据的目的,不是从对话系统中设计出有关语言理解和动作反映方面的规则,而是从数据样本中自动学习(浅层)统计或神经模型方面的参数。这种学习有助于降低人工制作复杂对话管理器的设计成本,并有助于提高整体口语理解和对话系统中语音识别错误的鲁棒性水平(He和Deng,2013)。具体来看,对话系统中对话策略部分,在本阶段引入了基于马尔科夫决策过程的强化学习,有关评论,可以参阅Young等人的文章(Young等,2013)。在口语理解方面,主要方法从第一阶段基于规则或模板的方法转移到生成模型,如隐马尔科夫模型(HMMs)(Wang等,2011),再到判别模型,如条件随机场(Tur和Deng,2011)。

同样,在语音识别领域,从20世纪80年代早期到2010年左右,该领域主要由机器学习(浅)范式主导,使用基于与高斯混合模型集成的HMM的统计生成模型,以及不同版本的泛化方面(Baker等,2009;Deng和O’Shaughnessy,2003;Rabiner和Juang,1993)。广义HMMs的许多版本是基于统计和神经网络的隐藏动态模型(Deng,1998;Bridle等,1998;Deng和Yu,2007)。前者采用EM和扩展卡尔曼滤波算法来学习模型参数(Ma和Deng,2004;Lee等,2004);后者使用了反向传播(Picone等,1999)。它们都广泛地利用了多个潜在的表示层来生成语音波形,遵循人类语音感知中长期存在的通过合成进行分析的框架。更重要的是,将这种“深层”生成过程转化为端到端判别过程的对应,引起了深度学习第一次在工业上的成功(Deng等,2010,2013;Hinton等,2012),形成了第三阶段的语音识别和NLP的驱动力,接下来我们将对此进行阐述。