赞助商

SDXL还没玩明白，SD3模型又来了（大模型和工作流体验下载）

资源下载10个月前发布用户7849262

993 00

Stable Diffusion要王者归来了？ SDXL还没玩明白，SD3模型又来了（大模型和工作流体验下载）插图

SD3-Turbo文生图效果图图片来源SD3-Turbo论文

从上图中可以看到，新模型在prompt控制上更上一层楼，氛围感方面也有明显的提升。

使用Diffusion transformer模型结构：这个模型结构可以说和Sora使用的基础模型一致，被称为DiT架构。主要是使用Transformers替换扩散模型中U-Net主干网络。这样做的效果不仅速度更快，而且在不同任务上都取得了很好的效果。

Stable Diffusion 3 Medium的参数量为2B，大小适中，它非常适合在消费级个人电脑和笔记本电脑上运行，同时也适用于企业级GPU。 SDXL还没玩明白，SD3模型又来了（大模型和工作流体验下载）插图3

SD3 Medium的优势如下所示：

照片级真实感：克服了手部和面部常见的伪影问题，无需复杂的工作流程即可提供高质量的图像。
提示词遵循性：理解涉及空间关系、构图元素、动作和风格的复杂提示。
文字能力：借助Diffusion Transformer架构，在生成无伪影和拼写错误的文本方面取得了前所未有的成果。
资源高效：由于其低VRAM占用，非常适合在标准消费级GPU上运行，且不降低性能。
微调：能够从小数据集中吸收细微的细节，使其非常适合定制化。

下载更新：

（一）更新 ComfyUI：

怎么更新就不用说了吧，更新到最新版就可以，没有的可以这里下载；

https://muhou.net/262226.html

（二）下载 SD3 模型：

我们直接去 Hugging Face 下载就行，官方还贴心的给了工作流（工作流在 comfy_example_workflows 文件夹中）；
模型中官方给了三个版本：
1. sd3_medium.safetensors 包括 MMDiT 和 VAE 权重，但不包括任何文本编码器。
2. sd3_medium_incl_clips.safetensors 包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少，但如果没有 T5XXL 文本编码器，模型的性能会有所不同。
3. sd3_medium_incl_clips_t5xx1fp8.safetensors 包含所有必要的权重，包括 T5XXL 文本编码器的 fp8 版本，在质量和资源要求之间提供平衡。
4. 大模型存放位置：ComfyUI\models\checkpoints
text_encoders 文件夹包含三个文本编码器及其原始模型卡链接，方便用户使用。text_encoders 文件夹中的所有组件（以及嵌入在其他包中的等效组件）均受其各自原始许可证的约束。
1. CLIP 模型存放位置：ComfyUI\models\clip
注意：使用 sd3_medium_incl_clips_t5xx1fp8.safetensors（也即是最大的大模型）模型时将不再需要使用 CLIP 模型

在ComfyUI上使用SD3时必须注意的！！！

一、不要用SD传统的方式写提示词！

什么叫SD传统的方式呢，就是把你的要求拆开成一个个关键词，然后用逗号分开，这是和SD3完全背道而驰的，比如说如下这种写提示词的方式，千万不要用，用了的话提示词遵循能力会很垃圾，质量也会差：

photorealistic image, an attractive young Caucasian man, short messy pale blonde hair, wearing an olive green suit, dark green vest, white dress shirt, red tie, slim and slender, looking at viewer, serious expression, in a palace hall, soft diffused sunlight, low contrast, low saturation, flat lighting
（不要用这种方法！别看错咯）

适用于SD3的提示词书写方法实际上只是自然语言，类似于你在ChatGPT里生成一个什么图，你在图片的详细信息页面里看到的那种提示词，你可以直接扔给SD3，出图效果会比截断式提示词好得多：

A photorealistic image of a very attractive young Caucasian man with short, messy pale blonde hair. He’s wearing an olive green suit with a dark green vest over a white dress shirt, complemented by a red tie. His build is slim and slender. He is looking directly at the viewer with a serious expression. The setting is a palace hall, illuminated by soft, diffused sunlight. The image is in portrait aspect ratio, with low contrast, low saturation, and flat lighting.

二、一定要用SD官方给出的ComfyUI workflow！

我有看到Comfy作者自己整了一个简单的workflow，就是那种以前的SD模型也通用的workflow，这种是不可以的，会生成非常垃圾甚至非常可怕的人像（四肢乱飞那种），一定要用SD官方在huggingface上传的那几个sample workflow（就是其中包含CLIP loader、好几个conditioning set timestep range还有那个model sampling sd3的node的复杂一些的workflow），生成的图片会正常得多。

SDXL还没玩明白，SD3模型又来了（大模型和工作流体验下载）插图6

官方的workflow大概长这样（我整理了一下子）

三、除了CFG和Model sampling shift可以动，其他的不要动

我有试过其他的sampler和scheduler，貌似是都不行，只有dpm++2m sgm_uniform的出图是正常的，其他的sampler出图要么是糊成一团要么是身体结构极其可怕，反正我现在是不敢动这两样了……CFG可以在1.5-6之间随意变动，model sampling shift基本1以上都可以，steps保持在28就行再往上用处不大（当然，你要觉得有些细节很拉，steps提高一些也没坏处就是了）。顺便一说CFG对于人像来说越往低越真，我试了一下1.5有时候有点儿崩，但是2-3的效果非常不错，皮肤和头发的质感都相当真实：

SDXL还没玩明白，SD3模型又来了（大模型和工作流体验下载）插图7

这张图我加了很多filler words，下面会提到

四、SD3非常依赖filler words，加和不加天壤之别

首先我解释一下filler words是什么：

cinematic still, emotional, harmonious, vignette, 4k epic detailed, shot on kodak, 35mm photo, sharp focus, high budget, cinemascope, moody, epic, gorgeous, film grain, grainy, bright colors, highly detailed, sharp focus, intricate, cinematic light, elegant, confident, rich, animated, background composed, vivid, very coherent, shiny, excellent composition, dynamic, ambient dramatic color, beautiful, epic, stunning

像以上这种不描述你要生成的具体内容的修饰词，我把它统称为filler words，这些filler words对于SDXL和SD1.5来说都是非常重要的，SD3也是一样，这也是为什么Fooocus上面使用SDXL效果好像会比A1111直接使用SDXL要好得多，就是因为Fooocus有一些默认添加的preset，这些preset就给提示词加上了很多个filler words

SD3的例子里，不加filler words的话图片会看起来比较粗糙，不是那么professional，但是如果你要的正好是那种比较日常、普通人随手拍照的效果，那就不要加任何filler words也不要加太多负面提示词。

SDXL还没玩明白，SD3模型又来了（大模型和工作流体验下载）插图8

不添加filler words，且只写出不想生成的元素作为negative prompt