1.1.2 视觉生成方面的技术_AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型-QQ阅读男生都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.1.2 视觉生成方面的技术

在计算机视觉（Computer Vision, CV）中，在深度学习算法出现之前，传统的图像生成算法使用了纹理合成和纹理映射等技术。这些算法基于手工设计的特征，并且在生成复杂多样的图像方面能力有限。随着卷积神经网络（Convolutional Neural Network, CNN）的引入，CV领域迎来爆发式增长。

2013年，提出变分自编码器，尤其是2014年提出生成对抗网络，它们在各种应用中取得了令人瞩目的成绩，成为人工智能领域的里程碑。

随后生成扩散模型如去噪扩散概率模型（Denoising Diffusion Probabilistic Model，DDPM）、DALL·E、Stable Diffusion等也被开发出来，这些模型对图像生成过程进行更细粒度的控制，并能够生成高质量的图像。

Transformer后来应用于CV领域，Vision Transformer（ViT）和Swin Transformer进一步发展了这一概念，将Transformer体系结构与视觉组件相结合，使Transformer能够应用于基于图像的下游系统。