上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第4章 数字人级别的语音驱动面部动画生成
4.1 语音驱动数字人面部动画项目介绍
本章论述了一种基于机器学习方法的语音驱动数字人处理框架和相关算法。与传统的基于规则或数据驱动的Lip Sync(Lip Synchronization,唇形同步)解决方案不同,该方案分析了高保真数字人面部绑定系统的制作管线和数据特点,并从机器学习的角度对该绑定进行抽象,定义了一个语音-控制器的端到端学习框架。基于这个框架,提出了一种基于深度学习的语音驱动面部动画模型。传统的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)特征缺乏对于驱动场景(任意说话者、合成语音、不同语言)多样性的有效处理。同时提出利用海量多语言语料库和深度语音识别技术,将Phonetic Posteriorgrams(PPG)特征作为语音驱动面部动画模型的有效特征,取得了比传统方法更好的驱动结果。进一步地,采集和整理了一个大规模多情绪语音-动画数据集,并提出了一种基于深度学习的多情绪语音驱动数字人方法,数字人在被语音驱动的同时,可以做出高兴、难过和愤怒的表情。基于这种技术,探索了语音驱动数字人的两个有效应用——面向人工智能的与Chatbot技术管线相结合的可交互高保真数字人和面向游戏开发的语音驱动动画工具。