1.3 Stable Diffusion
Stable Diffusion是一款免费、开源的图片生成工具。虽然它的诞生比Midjourney和DALL-E晚,但由于拥有发展良好的开源社区,Stable Diffusion受到的关注度和用户广度都远超两位“前辈”。
Stable Diffusion最大的特点是可以本地部署,只需一台计算机和一块8GB及以上显存的独立显卡,就可以无限制地生成可商用的图片。此外,开源社区中的大量用户为Stable Diffusion开发了数以百计的插件和数十万个模型,这些插件和模型极大地扩展了Stable Diffusion的图片生成能力。
在生成效果方面,最近发布的SDXL模型具备了直接生成高清图片的能力,图片中人物手部和文字生成方面的问题也得到了很大改善。而已经开启申请测试的Stable Diffusion 3(见图1-4)则更上一层楼,除了持续提高生成质量和对提示词的理解能力外,还支持新的文字生成功能以及通过提示词修改画面内容的功能。
图1-4
与Midjourney、DALL-E 3相比,Stable Diffusion的学习成本比较高。这是因为Stable Diffusion生成的图片风格主要取决于用户下载的模型,而模型的种类和版本繁多且不能混用,所以用户需要对此有一定的理解。此外,生成结果的构图、光照、色彩等方面都可以控制,需要熟悉并准确运用的参数也非常多,即便使用相同的提示词和模型也可能出现天差地别的效果图。这些因素使得人们觉得Stable Diffusion生成的图片质量上限非常高、下限非常低。
需要说明的是,目前使用的Stable Diffusion界面都是由开源社区中的开发者自行制作的,其中WebUI和ComfyUI的用户数量最多。这两个界面都运行在浏览器页面中,WebUI采用了传统软件的设计思路和布局方式,界面由读者熟悉的选项卡、对话框、单选按钮和复选框等控件组成,如图1-5所示。
图1-5
ComfyUI采用了节点式的用户界面,通过不同节点的搭配组合可以生成适用于各种需求的工作流程,如图1-6所示。这两种界面并不是互斥的关系,许多用户通常会从更易于理解的WebUI开始学习Stable Diffusion的基本参数,在需要进行复杂工作流程时再使用ComfyUI。
图1-6