深度学习与深度合成
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 深度合成

近几年,随着互联网技术的快速发展和数字图像处理技术的广泛应用,人们可以轻松拍摄出高质量的图像与视频,并能够迅速将其发布到互联网上,各类多媒体信息的快速传播正改变着人们的生活和工作方式。在信息传播的同时,对图像和视频进行后期加工和处理很大程度上可以满足多媒体信息的多样性需求。

多年以来,以Photoshop为代表的图像编辑软件通常是人们进行多媒体信息后期处理的主要工具。Photoshop能够对图像进行平移、旋转、缩放、镜像等各种几何操作,任意调整图像的对比度、亮度和饱和度等颜色属性,还可以对图像进行修补、去噪、风格转换乃至抠图等操作,几乎能满足一个用户对于图像修改的任何要求。然而,对于视频信息的修改往往需要将视频分解为连续的帧,然后逐帧进行修改,如果借助Photoshop等图像处理工具则需要大量的人工操作,难以实现视频信息的处理和修改。

深度合成实质上是一种针对文本、声音、图像与视频等多媒体信息的智能处理技术,其不再依赖手工操作实现修改和生成,而是依托生成对抗网络(GAN)等深度学习技术创建或合成文字、声音、图像或视频等视听资料。就人脸合成而言,就是利用大量目标人物不同角度、姿态与表情的照片不断训练深度神经网络,利用训练好的深度神经网络自动生成新的人脸图片,并将其覆盖到原有视频人物的脸部区域,形成新的人物角色。相对于Photoshop手工操作,深度合成技术节省了大量的人力成本和时间成本。

深度合成技术可以推动娱乐与文化、电子商务、广告营销等行业的发展,如可应用于在影视剧制作中创建虚拟角色,进行后期处理等。在影视作品的后期制作方面最具代表性的要数《速度与激情7》,通过换脸技术让去世的主演保罗沃克“复活”,没有影响影片的上映。此外,在中央电视台亮相的虚拟主持人,能够唱出《达拉崩吧》的虚拟歌手洛天依等诸多应用也在娱乐与文化领域大量涌现。在电商领域,深度合成技术可以将用户的脸部乃至身体换到产品相关的视频片段中,使得用户可以购买前实现“数字试穿”效果。在广告宣传和内容营销等领域中,利用深度合成的虚拟人物可以灵活替代主持人、模特等角色,既能带来各种各样的新鲜感,也能节省大量的人力资源成本。在医疗领域,深度合成技术可以生成逼真度极高的医学图像来训练人工智能图像识别系统,有望解决数据收集困难、病人隐私保护等问题。在语音合成方面,利用实时语音合成技术可以将任意文本内容转化为语音,能够应用于新闻、车载导航等个性化语音播报,以及有声读物制作、机器人语音交互等场景。