前言
随着硬件算力的持续提升,以及云计算、边缘计算、物联网、大数据、人工智能等一系列技术的发展成熟,人类正在加速迈入万物互联的泛在智慧社会,甚至是元宇宙的全新智能时代,这将引发生产生活方式、社会组织形态、产业发展模式、国家治理体系、全球竞争格局等方面的全方位变革。基于机器学习的人工智能能够从海量数据中凝练有用信息,并在实际生产生活中实现智能识别、检测、控制、生成和预测等能力,在计算机视觉、自然语言处理、自动化控制众多领域占据举足轻重的地位,是推动变革的主要动力之一。
从本质来看,第二代人工智能的成功离不开大模型、大数据和大算力。其中,大模型赋予人工智能更大的知识容量,大数据是人工智能的知识源泉,大算力使能人工智能更快速地学习。数据中心作为企业业务数据的大型存储库,以及容纳核心计算服务的高可靠集群,积累了体量庞大的数字资源和大规模的硬件算力,为训练人工智能模型提供丰富的算力和数字资源池。分布式机器学习起源于业界充分利用数据中心资源加速人工智能训练的迫切需求,已成为各个主流机器学习系统必备的核心能力,并受到谷歌、腾讯、阿里巴巴等国内外巨头企业的追捧。
2022年,“东数西算”工程全面启动实施,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等八地启动建设国家算力枢纽节点,并规划了十个国家数据中心集群。在产业界,随着机构和业务规模的持续扩大,中大型企业和研究院在多地扩建新型数据中心。例如,谷歌在全球各地建设有23个大型数据中心,涵盖北美、南美、欧洲、亚洲;腾讯在27个地理区域运营有71个可用区。又如,大型研究院鹏城实验室于2019年的湾区网项目正式开通六个算力云节点。这些广泛分布的新型数据中心不仅满足了企业自身和行业用户对大数据存储、智能云边计算、高速网络互联等服务的需要,也为附近地区的用户提供了数据就近存储、服务就近访问的优质服务。
尽管新型数据中心的算力算效已经得到空前提升,但是业界仍不满足于单数据中心的局限算力,还需要推动异地数据中心之间的组网互联,促进国家枢纽节点、企业算力节点等之间跨网、跨地区、跨企业的数据交互。2021年,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,要求“支持政府部门和企事业单位整合内部算力资源,对集群和城区内部的数据中心进行一体化调度”,实现“进一步打通跨行业、跨地区、跨层级的算力资源,构建算力服务资源池”。这一系列举措将有效整合多数据中心的算力和数字资源,有力推动构建数据中心、云计算、大数据一体化的新型算力网络体系。
为整合异地数据中心分散的数据资源和算力,跨数据中心分布式机器学习应运而生。这是一种面向多个异地分散计算机集群的分布式机器学习技术,在不迁移用户数据的前提下,联合多个数据中心的本地训练数据和本地算力集群协同进行数据挖掘,数据中心之间交换模型参数信息实现知识共享。跨数据中心分布式机器学习旨在为政企研用户提供高性能的分布式联合数据挖掘平台,通过攻克跨数据中心训练加速等核心关键技术,突破数据中心之间的数据屏障和通信壁垒,是当今以及未来基于机器学习的多云智能计算的关键技术。
本书向读者介绍跨数据中心分布式机器学习的发展背景与技术价值,展示适合该场景的系统架构和优化技术,并针对其面临的三大挑战给出解决方案,实现逼近甚至超越高速局域网互联下的分布式机器学习系统的训练效率。本书共8章,第1章概述分布式机器学习及其在跨数据中心场景下的基本概念及架构。第2章介绍适用于数据中心内外差异网络环境的高效通信架构。第3章介绍受限域间传输带宽和动态异构资源下的四种同步优化算法。第4章介绍数据压缩传输机制,给出两种相互兼容的稀疏和量化方案。第5章针对跨域数据传输的长尾流延迟,介绍一种新型差异化传输协议。第6章面向通用广域网互联和光广域网互联两种场景,分别介绍适用的流量传送调度机制。第7章针对来自不同数据中心的数据的统计异构性问题,介绍一种有效的异构数据优化方法。第8章总结全文内容,展望应用前景。本书既可以作为相关研究方向研究生的参考书籍,也可以作为从事人工智能及其分布式系统设计相关人员的学习资料。
回顾写作历程,从排期到书成,博士生周华漫、刘玲、曹行健、蔡青青,以及硕士生张兆丰、何易虹、计开来、冯博泉、张弛、李晴参与了全书资料整理、图表绘制和文字校对等工作。李乐民院士对课题的研究工作给予了很多指导与帮助,徐增林、邵俊明教授以及罗寿西讲师在本书的编写过程中提出了很多宝贵的意见和建议。李树林编辑在本书手稿的润色方面提供了很多专业建议和帮助。且夫水之积也不厚,则其负大舟也无力,饮水当思源。没有他们焚膏继晷,就没有今天著为成书。“物换星移几度秋”,本书集结了众人的智慧与心血,但从写作到成书略显仓促,稍显缺憾。文中如有疏漏或言不达意之处,望读者海涵,不吝指正,以裨补阙漏,不胜感激。
最后,还要特别感谢国家重点研发计划“支持5G/B5G巨连接、大流量、低延迟快速演进的新型网络技术研究与实验”(2019YFB1802800)、国家自然科学基金项目“跨广域网分布式机器学习参数交换的自适应传输技术研究”(62102066)、之江实验室开放课题“面向地理分布机器学习的数据传输加速技术研究”(2022QA0AB02)、中兴通讯股份有限公司“算力网络与新型通信原语项目”(201075)、鹏城实验室大湾区未来网络试验与应用环境项目“跨域多方协同学习平台的通信优化技术”(LZC0019)的大力资助。在他们的支持下,本书所描述的系统及技术得以顺利进行并圆满完成。
编著者