蝶变:迈向数实共生的元宇宙
上QQ阅读APP看书,第一时间看更新

历史上,计算机通过用确定性算法编程来执行任务,这些程序详细说明了必须执行的每一个步骤。这在很多情况下运作良好,比如从执行复杂的计算到击败国际象棋大师。但在无法提供明确算法的情况下,比如自动驾驶、识别面部表情,或者回答非常规问题等,传统计算机的表现并不理想,而人类却可以驾轻就熟。人类处理这类高层次的感知和认知问题,主要依靠大脑皮质里面的神经网络。那么,有没有可能让计算机直接模仿神经网络,来获得像人脑一样的认知能力呢?2006年,受杰弗里·辛顿(Geoffrey Hinton)的革命性的深度信念网络(Deep Belief Networks,DBNs)的引导,杰弗里·辛顿、约书亚·本吉奥(Yoshua Bengio)、马克·奥雷里奥·兰扎托(Marc'Aurelio Ranzato)与杨立昆(Yann LeCun)的三篇文章将深度学习(Deep Learning)带入热潮,将其从边缘学科变为主流科学与技术。

深度学习是从数据中学习,就像婴儿了解周围的世界那样,从睁开眼睛开始,慢慢获得驾驭新环境所需的技能。2005年,在美国国防部高级研究计划局(DARPA)举办的自动驾驶挑战赛中,一辆由斯坦福大学教授塞巴斯蒂安·特龙(Sebastian Thrun)领导其团队开发的自动驾驶汽车Stanley最终赢得了200万美元的现金大奖,背后的功臣正是该团队使用的深度学习算法。特龙团队在训练自动驾驶汽车的时候,并没有遵循传统的方法,即通过编写计算机程序来应付各种偶发事件,而是直接在沙漠中驾驶Stanley,让汽车根据视觉和距离传感器的感应输入,从零开始学习如何像人一样驾驶。要达到这种“类人”的学习效果,就需要构建神经网络——大量的、简单的处理单元(神经元)广泛地互相连接而形成的复杂网络系统,具备大规模并行、分布式存储和处理、自组织、自适应和自学习的能力,借以表达实际物理世界中的各种现象。

特龙后来加入了谷歌,参与创立了谷歌高科技项目重点实验室Google X,并进一步研究自动驾驶汽车,帮助谷歌奠定了其在自动驾驶领域的全球领先地位。自动驾驶汽车和增强现实(Augmented Reality,AR)眼镜是Google X最著名的两个项目,但作为谷歌最神秘的部门,这里的研究远不止于此——早在2012年前,他们就成立了专门的团队,模拟人脑的运行方式。为了研究深度学习,谷歌的科学家将1.6万片电脑处理器连接起来,创造了全球最大的神经网络之一。它不需要借助大批研究人员帮助电脑标明事物之间的差异,只要为算法提供海量的数据,“神经元”与“神经元”之间的关系就会发生变化,让数据自己说话。组成“神经网络”的机器具备自动学习、识别数据的能力,在新的输入中找出与学到的概念对应的部分,达到识别的效果。在看过数百万张图片后,谷歌的虚拟大脑将自己构建出一张理想的猫的图片,利用不同层级的存储单元成功提炼出猫的基本特性。有科学家认为,这似乎是在控制论层面模拟了人类大脑视觉皮层的运作方式。

2016年年初,AlphaGo战胜李世石成为人工智能的里程碑事件,其核心技术深度强化学习(Deep Reinforcement Learning)受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。而进一步研发出算法形式更为简洁的AlphaGo Zero,其采用完全不基于人类经验的自学习算法完胜AlphaGo,再一次刷新了人们对深度强化学习的认知。强化学习是一种人工智能方法,能使计算机在没有明确指导的情况下像人一样自主学习。如今,强化学习正在迅速发展,并逐步将人工智能渗透到除了游戏之外的各个领域。除了能够提升自动驾驶汽车性能,该技术还能让机器人领会并掌握以前从未训练过的技能。

近年来,深度学习技术被证明是一种用来识别数据模式的极其高效的方式。在国内,以科大讯飞为例,这家公司已经针对强化学习在多个方向展开了研究和应用,包括人机对话系统、智能客服系统、机器辅助驾驶、机器人控制等方向。例如,在传统的任务完成型对话系统中,用户需要在一次交互过程中把自己的需求描述清楚,这样的交互是不自然的。在科大讯飞的AIUI交互系统框架中,引入了多轮交互的思想,由一个深度强化学习(马尔库夫决策过程)模型来引导用户输入需求,从而快速、自然流畅地完成用户任务。同时,许多工业机器人制造商也将目光投向了强化学习技术,测试该技术在无手工编程情况下训练机器执行新任务的效果。

2014年,伊恩·古德费洛(Ian Goodfellow)等人发表论文,提出了新型生成对抗网络(Generative Adversarial Networks,GAN)[4],它受启发于博弈论中零和博弈的思想,包含两个模块:判别模型和生成模型,二者不断博弈,使生成器学习真实的数据分布,而判别模型的目的是尽量正确判别输入数据是来自真实数据还是来自生成器。为了取得游戏胜利,这两个游戏参与者需要不断优化,各自提高自己的生成能力和判别能力,这个学习优化过程就是寻找二者之间的一个纳什均衡。伊恩发明出GAN后,获得脸书(Facebook)首席人工智能科学家杨立昆、英伟达(NVIDIA)创办人黄仁勋、LANDING.AI创办人吴恩达等大咖的赞赏,吸引了诸多的机构及企业开始研究。在中国,部分学术机构致力于研究GAN理论的进一步改良及优化,比如中科院自动化所研究人员受人类视觉识别过程启发,提出了双路径GAN(TP-GAN),用于正面人脸图像合成,而香港中大—商汤科技联合实验室在国际学术大会上发表多项GAN相关研究成果。

GAN具有大量的实际用例,如图像生成、艺术品生成、音乐生成和视频生成。此外,它还可以完成提高图像质量、图像风格化或着色、面部生成以及其他更多有趣的任务。目前,GAN已被用于创造听起来十分真实的语音,以及看起来非常逼真的假图片。这项技术已经成为了在过去十年最具潜力的人工智能的突破,帮助机器产生甚至可以欺骗人类的成果。未来,GAN可能对计算机图形学产生冲击或挑战,因为目前已经有各种变体或进阶版出现,而且在诸多研究人员及企业的投入下仍然有许多可能性,例如从二维的图片进展到三维的视频等。

总结一下,数据之所以能够融入现实,在于数据可以转化为信息,而信息又可以萃取出知识,知识进而提升为智慧(或者智能),之后促发智能指导下的人类行动。反过来,人类行动又产生了更多的数据,形成了周而复始的循环。本节阐述了这一过程是如何完成的,以及伴随这一过程的数据存储和数据分析的大致演进——从数据库到决策支持系统再到多维分析,然后发展到数据挖掘、深度学习,及至当前方兴未艾的对抗生成网络,当中的核心主线只有一条——数据价值在被持续放大。

那么,数据怎么变成钱呢?让我们来看看数据创富的逻辑。