前言

从2022年年底开始，以ChatGPT为代表的生成式人工智能（AIGC）技术，便成为全球广泛关注的热点。

AIGC技术的落地，离不开大模型。大模型指包含的参数量达到十亿级别，需要采用多任务、分布式机器学习训练系统的深度神经网络模型。以GPT-3为例，其参数量达到了1750亿之巨。

以大模型与AIGC为代表的AI（人工智能）技术，对提供算力的基础架构的构建，也提出了更高的要求。由于训练大模型往往需要昂贵的算力设备，所以如何构建稳定、高效、易扩展的基础架构，让昂贵的算力设备尽量发挥至高效能，也成为架构师们探索的重要方向。

本书首先从AI算法的特点开始，分析了AI相关应用的架构及对应的硬件特性，然后对如何构建、扩展、运行支撑AI应用的硬件平台，以及如何调度AI算力并构建支撑应用的存储、网络、中间件、运维、运营平台进行了讨论。期望读者在阅读本书以后，能思考和理解以下问题。

• AI算法主要有哪些，它们的共同特点是什么？

• 如何便捷地开发AI算法程序？

• 如何部署和调度AI算法程序？

• AI算法程序需要哪些硬件特性的支持，又是如何调用这些硬件的？

• 分布式AI计算依赖哪些硬件特性？

• 如何调度AI算力，使之服务于不同用户的不同应用，并尽可能发挥硬件的计算能力？

• 怎样构建能够无限横向扩展的AI算力平台，并为AI算力集群构建不同业务需要的通信网络？

• 如何高效、可靠地存取AI算法程序所需的海量数据及训练成果？

• 如何为AI算法程序提供中间件、数据库和微服务框架等支撑组件，避免程序员重复“造轮子”，提升开发、部署效率？

• 如何运维、运营AI算力平台，让平台资源得到充分利用，让成本中心转型为利润中心？

下面，让我们翻开本书，找到这些问题的答案，成为大模型时代合格的云计算架构师。