1.1 概述
语音是人与人之间进行交流时使用的最方便、最自然、最重要的信息载体。在高度信息化并且向智能化方向发展的今天,语音处理的一系列技术及其应用系统已经成为当今社会不可或缺的重要组成部分。
语音的产生是一个复杂的过程,其中包括心理和生理等方面的一系列复杂动作。当人需要通过语音表达某种语义信息时,首先是这种信息以某种抽象的形式表现在说话人的大脑里,然后转换为一组神经信号,这些神经信号作用于发声器官,从而产生携带信息的语音信号。
语音信号中除了含有语义信息外,通常还包含说话人特征、情感、性别、年龄、方言、语言类别等信息,当有外部干扰时,通常还包含有噪声等。人类的听觉感知系统对语音的表现形式和环境的变化具有良好的适应性,可以轻易过滤掉噪声及其他干扰声,并提取出其中的有用信息。
除了面对面进行语音交流外,语音通常需要经过处理后才能应用于不同场合。经典的语音信号处理多是由任务驱动的,即信号的表示取决于所面向的具体任务,如语音编码、识别、增强、分离、说话人识别、情感识别等,这就导致了语音信号表示不能灵活地适应不同说话人、不同噪声环境等因素,因此难以取得更稳健和更理想的处理效果。
语音处理是一门涉及诸多领域的交叉学科,它以生理学、心理学、语言学以及声学等学科为基础,与信息论、控制论、系统论、人工智能等密切相关,运用信号处理、统计分析、模式识别、机器学习等技术手段来解决所涉及的各种问题。
经典的语音信号处理中,语音信号的表示多采用统计建模和参数映射的方式。在分析语音信号特点的基础上,基于语音产生机理和模型,提取相应的语音特征参数,通过统计训练的方法,建立语音特征参数与相关信息的映射关系,最后利用这种映射关系来实现语音的各种应用任务。经典方法已在语音信号处理的不同领域得到了广泛应用。
神经生物学家发现,人类的大脑皮层在处理信息时具有分层机制,信息从感知器官传入大脑,经过多层神经网络传递,每一层神经元都会识别出特定的特征。这一重要发现激发了深度神经网络(Deep Neural Network,DNN)的构想,为智能语音处理提供了新的理论基础。
随着人工智能、大数据、高性能计算等技术的快速发展及其在语音处理中的应用,语音处理正迈向崭新的智能语音处理阶段。