3.2 深度学习延伸之语音识别
3.2.1 语音识别技术的框架
语音识别技术将人机对话这一设想变成现实,它是借助机器的识别和理解,将人类的语音信号转换成对应文本的技术。一个完整的语音处理系统包括前端的信号处理、中间的语音/语义识别和对话管理,以及后期的语音合成。总体来说,随着语音识别技术的快速发展,限定条件正在不断地拓宽,同时也对语音处理提出了更高的要求。例如,从小词汇量到大词汇量,再到超大词汇量;从限定语境到弹性语境,再到任意语境;从安静环境到近场环境,再到远场嘈杂环境;从朗读环境到口语环境,再到任意对话环境;从单语种到多语种,再到多语种混杂。
长期以来,语音识别系统在对每个建模单元的统计概率模型进行描述时,大多采用高斯混合模型(GMM),这种模型适合海量数据训练,所以它在语音识别应用中居于垄断性地位。不过,GMM本质上是一种浅层网络建模,对特征的状态空间分布不能充分描述。其特征维度一般也就几十维,对特征之间的相关性也不能进行充分描述。因而,GMM建模是一种概率建模,其能力有限。
2011年,微软公司在识别系统研究方面取得阶段性的成果,这种基于深度神经网络的成果,彻底改变了语音识别原有的技术框架。
语音的前端处理涵盖的几个模块包括说话人声检测模块、回声消除模块、唤醒词识别模块、麦克风阵列处理模块、语音增强模块等。说话人声检测模块可以有效地检测说话人声开始和结束的时刻并区分说话人声与背景声。回声消除模块的作用是当音箱在播放音乐时,消除来自扬声器的音乐干扰,不暂停音乐而进行有效的语音识别。唤醒词识别模块是人类与机器交流的触发方式,就像日常生活中需要与其他人说话时,你会先喊一下那个人的名字。麦克风阵列处理模块可以对声源进行定位,增强说话人方向的信号,同时抑制其他方向的噪声信号。语音增强模块可以进一步增强说话人的语音,进一步抑制环境噪声,有效降低远场语音的衰减。除了手持设备场景属于近场环境,其他许多场景(如车载、智能家居等)都是远场环境。在远场环境中,声音传达到麦克风时会衰减得非常厉害,导致一些在近场环境中不值一提的问题被显著放大。这就需要前端处理技术能够克服噪声、混响、回声等问题,较好地实现远场拾音;同时,也需要更多远场环境下的训练数据对模型进行持续优化,提升远场拾音的效果。
通过深度神经网络,特征之间的相关性得到了充分的利用和描述,连续多帧的语音特征合并在一起后形成了一个高维特征。由此,深度神经网络就得以采用高维特征训练来模拟,最终形成较为理想的适合模式分类的特征。在线上服务时,深度神经网络的建模技术能够和传统的语音识别技术进行无缝对接,大幅提升了语音识别系统的识别率。在线下服务的实际解码过程中,仍采用传统的隐马尔可夫模型(HMM)、传统的统计语言模型和传统的动态加权有限状态转换机(WFST)解码器。在声学模型的输出分布计算时,完全用神经网络的输出后验概率乘以一个先验概率来代替传统HMM中的GMM的输出似然概率。这样的语音识别系统的误识别率与传统的GMM语音识别系统的误识别率相比,下降了25%。
语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。除了前面提到的远场识别问题,还有许多前沿研究集中于解决“鸡尾酒会问题”。“鸡尾酒会问题”显示的是人类的一种听觉能力,能在多人场景的语音/噪声混合中,追踪并识别至少一个声音,即便在嘈杂环境下也不会影响正常交流。这种能力主要体现在以下两种场景中。一是人们将注意力集中在某个声音上时。例如,在鸡尾酒会上与朋友交谈时,即使周围环境非常嘈杂,其音量甚至超过了朋友的声音,我们也能清晰地听到朋友说的内容;二是人们的听觉器官突然受到某个刺激的时候,如远处突然有人喊了自己的名字或者在非母语环境下突然听到母语,即使声音出现在远处、音量很小,我们的耳朵也能立刻捕捉到。而机器就缺乏这种能力,虽然当前的语音技术在识别一个人所讲的内容时能够体现出较高的精度,但当说话人数为两人或两人以上时,识别精度就会大打折扣。如果用技术的语言来描述,问题的本质其实是在给定多人混合语音信号的情况下,从中分离出特定说话人的信号和其他噪声是较为简单的任务,而同时分离出说话的每个人的独立语音信号则是较为复杂的任务。针对这些任务,研究者已经提出了一些方案,但还需要更多训练数据的积累和训练过程的打磨,逐渐取得突破,最终解决“鸡尾酒会问题”。
3.2.2 语音识别技术的突破
在一些限制条件下,机器确实具备一定的“听说”能力。因此,在一些具体的场景中(如语音搜索、语音翻译、机器朗读等),语音识别技术确实有用武之地,但真正做到像正常人类一样与其他人流畅沟通、自由交流还有待时日。
基于深度神经网络的语音识别技术得到了广泛的应用。语音导航、语音拍照、语音拨号、语音唤醒等功能已经成为各智能终端上最普遍的应用。另外,智能语音操控也由聊天应用发展成了能帮助用户解决实际问题的功能性应用。现在,几乎所有的主流智能手机都带有一定程度的语音功能。例如,苹果公司的iOS手机有Siri,谷歌公司的Android手机有Google Now,微软公司的Windows 手机有Cortana等。智能语音正在走向成熟,智能语音控制成为行业发展的一大特色。
技术和理念上的突破让人机交互变得越来越频繁,人类对智能设备的依赖也越来越强。随着智能设备研发的深入,在其功能和性能不断提升的同时,人类操控设备的方式变得复杂起来。有时候,智能设备需要专业人士操控,一般人会感到无所适从。怎样改变现状让人工操控智能设备变得简单、方便起来呢?如果让语音成为主流的交互手段,就能让人们针对智能设备的操作变得简单化,从而节省人机互动的时间。
最能体会到语音识别技术给生活带来方便的是老年人、低龄儿童和残障人士。例如,老年人视力下降、动作不灵活,低龄儿童一时还不具备手写能力,而失明人士无法通过视觉识别事物等,他们都可以通过语音交互给生活带来方便。
另外,通过语音识别技术还能让人机交互以人类熟悉和习惯的方式进行。这种优势和价值一旦被充分挖掘并发挥出来,必将对即时通信、购物和搜索等垂直应用产生巨大的影响。目前,将语音交互技术应用于搜索引擎、浏览器等应用的入口,已成为产业巨头们纷纷投入资源进行研发的重要内容。