大模型时代的基础架构:大模型算力中心建设指南
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

从2022年年底开始,以ChatGPT为代表的生成式人工智能(AIGC)技术,便成为全球广泛关注的热点。

AIGC技术的落地,离不开大模型。大模型指包含的参数量达到十亿级别,需要采用多任务、分布式机器学习训练系统的深度神经网络模型。以GPT-3为例,其参数量达到了1750亿之巨。

以大模型与AIGC为代表的AI(人工智能)技术,对提供算力的基础架构的构建,也提出了更高的要求。由于训练大模型往往需要昂贵的算力设备,所以如何构建稳定、高效、易扩展的基础架构,让昂贵的算力设备尽量发挥至高效能,也成为架构师们探索的重要方向。

本书首先从AI算法的特点开始,分析了AI相关应用的架构及对应的硬件特性,然后对如何构建、扩展、运行支撑AI应用的硬件平台,以及如何调度AI算力并构建支撑应用的存储、网络、中间件、运维、运营平台进行了讨论。期望读者在阅读本书以后,能思考和理解以下问题。

• AI算法主要有哪些,它们的共同特点是什么?

• 如何便捷地开发AI算法程序?

• 如何部署和调度AI算法程序?

• AI算法程序需要哪些硬件特性的支持,又是如何调用这些硬件的?

• 分布式AI计算依赖哪些硬件特性?

• 如何调度AI算力,使之服务于不同用户的不同应用,并尽可能发挥硬件的计算能力?

• 怎样构建能够无限横向扩展的AI算力平台,并为AI算力集群构建不同业务需要的通信网络?

• 如何高效、可靠地存取AI算法程序所需的海量数据及训练成果?

• 如何为AI算法程序提供中间件、数据库和微服务框架等支撑组件,避免程序员重复“造轮子”,提升开发、部署效率?

• 如何运维、运营AI算力平台,让平台资源得到充分利用,让成本中心转型为利润中心?

下面,让我们翻开本书,找到这些问题的答案,成为大模型时代合格的云计算架构师。