人工智能:语音识别理解与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

推荐序

本书专门讲述如何将深度学习方法,特别是深层神经网络(DNN)技术应用于自动语音识别(ASR)领域。在过去的几年中,深层神经网络技术在语音识别领域的应用取得了前所未有的成功。这使得本书成为在深层神经网络技术的发展历程中一个重要的里程碑。作者继其前一本书Deep Learning:Methods and Applications(《深度学习·方法与应用》)之后,在语音识别技术和应用上进行了更深入的钻研,得成此作。与上一本书不同,本书并没有对深度学习的各个应用领域都进行探讨,而将重点放在语音识别技术及其应用上,并就此进行更深入、更专一的讨论。难能可贵的是,本书提供许多语音识别技术背景知识,以及深层神经网络的技术细节,比如严谨的数学描述和软件实现也都包含其中。这些对语音识别领域的专家和有一定基础的读者来说都将是极其珍贵的资料。

本书的独特之处还在于,它的内容并没有局限在目前常应用于语音识别技术的深层神经网络上,还兼顾了深度学习中的生成模型,这种模型可以很自然地嵌入先验的领域知识和问题约束。作者在背景材料中充分证实了自20世纪90年代早期起,语音识别领域研究者提出的深度动态生成模型(dynamic generative models)的丰富性,同时将其与最近快速发展的深度鉴别性模型在统一的框架下进行了比较。书中以循环神经网络和隐动态模型为例,对这两种截然不同的深度模型进行了全方位有见地的优劣比较。这为语音识别中的深度学习发展和其他信号及信息处理领域开启了一个新的激动人心的方向。该书还满怀历史情怀地对四代语音识别技术进行分析。当然,以深度学习为主要内容的第四代技术是本书所详细阐述的,特别是DNN和深度生成模型的无缝结合,将使得知识扩展可以在一种最自然的方式下完成。

总的来说,本书可能成为语音识别领域工作者在第四代语音识别技术时代的重要参考书。全书不但巧妙地涵盖了一些基本概念,使读者能够理解语音识别全貌,还对近两年兴盛起来的强大的深度学习方法进行了深入地介绍。读完本书,读者将可以看清前沿的语音识别是如何构建在深层神经网络技术上的,可以满怀自信地去搭建识别能力达到甚至超越人类的语音识别系统。

Sadaoki Furui
芝加哥丰田技术研究所所长,东京理工学院教授