人工智能:语音识别理解与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

以自然语言人机交互为主要目标的智能语音和语言处理是人工智能的核心领域之一,近几十年来一直是研究的热点。尤其是近十年,深度学习的迅速发展使得智能语音及语言处理的研究热情被极大地点燃,学术界和工业界都热忱地参与进来,产生了一系列重大进展。这一系列新的技术是智能语音及语言处理研究历史上的重要里程碑,很有必要被系统地总结。

我们在2014年出版的《解析深度学习:语音识别实践》一书中,比较全面地介绍了2014年之前深度学习在“隐马尔可夫模型+n元词组语言模型”经典语音识别框架下的应用技术细节。以深度学习的初始经典模型——深层神经网络(Deep Neural Network,DNN)为基础,讲述了深度学习的基本方法,及其在语音识别的声学建模中的各类技术细节,并介绍了循环神经网络(Recurrent Neural Network,RNN)和长短时记忆(Long Short Term Memory,LSTM)网络的基础应用。

2014—2019年,随着工业界对自然口语交互系统的应用热情空前高涨,以及研究界在基于深度学习的语音和语言处理技术上的大幅进步,一系列新的甚至颠覆性的理论、技术、算法应用产生了,这使得语音识别系统在经典大词汇连续语音识别任务上的错误率大幅下降,甚至逼近了人类水平。同时,基于深度学习的自然语言处理技术也取得了长足进展,尤其是任务型口语对话系统的各个模块都广泛采用了深度学习技术并有了提升。因此,我们决定在《解析深度学习:语音识别实践》一书的基础上,改写并补充大量内容,详细总结新的语音识别算法及应用技术,以及口语对话系统中基于深度学习的自然语言处理技术。

首先,在语音识别理论的进展方面,从深度学习理论及其应用的角度,增加了经典语音识别框架下的先进深度学习模型的扩充介绍,主要是卷积神经网络、循环神经网络的新技术及深度学习在语音端点检测、唤醒、语言模型中的技术应用细节。其次,从语音识别框架和方法论的角度,重新组织了篇章结构,集中介绍了先进的语音识别方法,包括自适应、鉴别性训练和端到端模型。尤其扩充介绍了声学模型的序列鉴别性训练,这是近年来使深度学习声学模型性能继续大幅提升的关键高级技术。而端到端模型作为不同于经典的“隐马尔可夫模型+n元词组语言模型”语音识别框架的颠覆性建模技术,已经在工业界得到广泛应用,成为替代原有框架的崭新技术方向。本书还从场景角度介绍了复杂语音识别场景下的深度学习技术应用,尤其是从抗噪语音识别角度介绍了单通道语音增强和信号分离技术,以及远场语音识别的前端技术。

本书的另一个重要部分是深度学习在口语理解及对话系统中的应用技术介绍。虽然人类的语音感知与语言认知天然地作为一个完整系统在工作,但我们仍然经常听到一种被广泛传播的错误理解:语音识别与自然语言处理是两个独立的技术体系。本书从完整的口语对话系统角度,梳理了语音识别与自然语言理解的相互关系,介绍了口语对话系统的基本概念、自然语言理解与口语理解的异同,以及对话状态跟踪与语义理解的异同等。对于深度学习在理解和对话中的应用,不仅介绍了基于纯文本的理解和对话交互的深度学习技术,还介绍了如何在带有错误的语音识别结果上做更好的语言理解和对话管理的相关处理框架与应用技术。这些深度学习技术是未来构建认知型口语交互系统的关键。

我们相信,本书对语音识别、语言理解和口语对话给出了一个更为完整的技术图谱,它将促进真实世界的人机智能口语交互系统的技术发展,也将有益于机器学习、智能语音及语言处理领域的研究者和实践者。我们希望,本书能够持续激发更多的创新想法和工业应用,推动口语对话式人工智能的发展。

本书是由俞栋和邓力提供部分材料,俞凯和钱彦旻撰写完成的。在撰写过程中,上海交通大学智能语音实验室的常烜恺、曹瑞升、陈露、陈哲怀、陈志、杜晨鹏、胡虎、李豪、潘亦晟、石开宇、王帅、谢凯歌、张王优、周瑛、朱苏等同学提供了大量的支持和帮助,再次表示感谢。同时感谢电子工业出版社的编辑,他们的帮助是本书能够顺利出版的重要支撑。

俞栋 邓力 俞凯 钱彦旻
2020年9月