Stable Diffusion 3 正式开源：超强文生图模型SD3-M登场引领创新潮流-AITOP100,AI资讯

知名开源大模型平台Stability AI于2024年6月12日晚上9点钟在推特上宣布正式开源了 Stable Diffusion 3 Medium（SD3-M）权重，为广大用户带来了免费试用的机会。而且官方还宣称SD3-M是他们Stable Diffusion 3 系列钟最新、最先进的文本转图像AI模型！

Stable Diffusion 3 Medium地址

试玩地址：https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

Stable Diffusion 3 Medium（SD3-M）关键要点：

Stable Diffusion 3 Medium，由 Stability AI 推出，代表了我们迄今为止在文本到图像领域最前沿的开放模型技术。
这款模型设计紧凑，便于在常见的个人电脑、笔记本电脑，以及企业级图形处理单元（GPU）上高效运行。其优化的大小使其成为文本转图像应用的新一代标准。
现在，这些精心调整的模型权重可以在非商业性的开放许可证和面向创作者的低成本许可证下供您使用。如果您有大规模商业应用的需求，欢迎联系我们以获取更详细的许可信息。
想要体验 Stable Diffusion 3 模型的魅力，您可以通过 Stability AI 的平台 API 来尝试。我们还提供在 Stable Assistant 上注册即可享受的三天免费试用。此外，您还可以通过 Discord 加入 Stable Artisan，进一步探索模型的潜力。

什么让 SD3 Medium 脱颖而出？

我们都知道SD3是一款强大的文生图模型，拥有20亿参数，因其高效的推理速度和卓越的生成效果而备受瞩目。

具有一些显著的特点：

Stable Diffusion 3 Medium 模型以其卓越的图像生成能力而著称，能够输出具有照片级真实感的图像，细节丰富、色彩鲜艳、光照自然。通过采用创新的16通道VAE等技术，该模型显著提升了图像质量，尤其在手部和面部等细节上，克服了其他模型普遍存在的不足。
在理解复杂提示方面，Stable Diffusion 3 Medium 表现出色，能够深入理解空间关系、构图元素、动作和风格等复杂概念。用户可以根据需要选择使用一个或多个文本编码器，以平衡生成过程中的性能和效率。
排版质量也得到了显著提升，得益于其独特的扩散变压器架构，生成的文本在拼写、字距、字母形状和间距方面的错误大幅减少，提供了前所未有的文本质量。
此外，Stable Diffusion 3 Medium 模型在资源利用方面表现出色，其较小的VRAM占用使得它能够在标准消费者级GPU上高效运行，而不会牺牲性能。
模型的微调能力同样值得称赞，它能够从有限的数据集中学习细微的细节，使得定制化输出更加精确和完美。这些特点使得Stable Diffusion 3 Medium 成为市场上最具吸引力和实用性的文本到图像生成模型之一。

SD3-M版本的开源允许用户探索其在不同领域的应用潜力。该模型采用了多模态扩散变换器（MMDiT）架构，在图片质量、排版、复杂文本提示和资源效率等方面取得了显著提升。仅需2-10秒即可生成图像，对硬件需求相对较低，适用于PC、手机、平板等多种设备。

SD3-M还与英伟达、AMD合作

SD3-M还与英伟达、AMD合作进行了特定硬件的优化，针对RTX GPU、TensorRT、最新CPU以及MI-300X进行了优化，性能最高可提升50%。该模型使用了包含10亿张图片的公开和合成数据进行了预训练，并针对特定艺术风格和领域，使用了3000万张图片进行微调以及300万张偏好图片，使其对用户的文本提示理解和嵌入图片文字的效果更为优秀。

通过在线demo展示，SD3-M生成效果惊艳非凡，能够生成高耸的摩天大楼、宁静的海滩景色、热带雨林以及20世纪50年代的老式餐厅等各种图像。免费在线试用为用户提供了无限的探索可能。