AIGC原理与实践:零基础学大语言模型、扩散模型和多模态模型
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1.3 多模态方面的技术

生成模型在不同领域的发展遵循不同的路径,但最终出现了交集——Transformer模型。

除了对单模态的优化外,这种交叉也使来自不同领域的模型能够融合在一起,以执行多模态任务。多模态领域的进展得益于扩散模型(Diffusion Model)的应用,以DALL·E 2、DALL·E 3、Stable Diffusion 2.0、Stable Diffusion XL等模型为代表。扩散模型是一种从噪声中生成图像的深度学习技术。该技术的背后,是更精准理解人类语义的预训练模型以及文本与图像统一表示模型CLIP(Contrastive Language-Image Pre-training,对比学习语言-图像预训练)的支撑。

CLIP、DALL·E、Stable Diffusion等模型为多模态模型,如图1-2所示。这些模型将Transformer模型与视觉组件相结合,允许在大量文本和图像数据上进行训练。由于在预训练中结合了视觉和语言知识,可以说,Transformer的出现让图像生成变得更具想象力。

图1-2 AIGC中的多模态模型