上QQ阅读APP看书,第一时间看更新
1.3.2 智能语音处理的基本框架
“声源-滤波器”模型虽然能够有效地区分声源激励和声道滤波器,对它们进行高效的估计,但语音产生时发声器官存在着协同动作,存在紧耦合关系,采用简单的线性模型无法准确描述语音的细节特征。同时,语音是一种富含信息的信号载体,它承载了语义、说话人、情绪、语种、方言等诸多信息,分离、感知这些信息需要对语音进行十分精细的分析,对这些信息的判别也不再是简单的规则描述,单纯对发声机理、信号的简单特征采用人工手段去分析并不现实。
类似于人类语言学习的思路,采用机器学习手段,让机器通过“聆听”大量的语音数据,并从语音数据中学习蕴含其中的规律,是有效提升语音信息处理性能的主要手段。与经典语音处理方法仅限于通过提取人为设定特征参数进行处理不同,智能语音处理最重要的特点就是在语音处理过程或算法中体现从数据中学习规律的思想。图1-5给出了智能语音处理的三种基本框架,图中虚线框部分有别于经典语音处理方法,包含了从数据中学习的思想,是智能语音处理的核心模块。其中,图1-5a是在经典语音处理特征提取的基础上,在特征映射部分融入了智能处理,是机器学习的经典形式,图1-5b和图1-5c是表示学习的基本框架,其中图1-5c是深度学习的典型框架,“深度层次化的抽象特征”是通过分层的深度神经网络结构来实现的。