智谱团队开源文生图模型 CogView3，已上线智谱清言APP-AITOP100,AI资讯

智谱团队开源文生图模型 CogView3，已上线智谱清言APP

一、背景

随着人工智能技术的不断发展，文本到图像生成技术逐渐成为研究热点。近日，我国智谱团队在这一领域取得重要突破，宣布开源文生图模型 CogView3 及 CogView3-Plus-3B，为文本到图像生成技术带来新的变革。

1. 级联扩散技术

CogView3 是一款基于级联扩散的 text2img 模型，包含三个阶段：低分辨率生成、中分辨率超分辨率生成和高分辨率迭代生成。这种设计使得模型在保证图像质量的同时，提高了生成效率。

2. 性能优势

据官方数据显示，CogView3 在人工评估中，性能优于目前最先进的开源文本到图像扩散模型 SDXL，高出 77.0%。同时，推理时间仅为 SDXL 的 1/10，大幅提高了生成速度。

1. DiT 框架

CogView3-Plus 模型在 CogView3 的基础上，引入了最新的 DiT 框架。这一框架有助于提高模型的基本能力，同时降低训练和推理成本。

2. Zero-SNR 扩散噪声调度

CogView3-Plus 采用 Zero-SNR 扩散噪声调度，有效提高了图像生成质量。此外，模型还引入了文本-图像联合注意力机制，进一步提升生成效果。

3. 潜在维度为 16 的 VAE

CogView3-Plus 使用潜在维度为 16 的 VAE，在保持模型性能的同时，降低了计算复杂度。

CogView3-Plus 模型亮点

智谱团队此次开源的 CogView3 及 CogView3-Plus-3B 模型，将为文本到图像生成领域带来新的发展机遇。通过“智谱清言”App 等平台，这些先进技术将广泛应用于创意设计、虚拟现实、游戏开发等领域，助力我国人工智能产业发展。

智谱团队开源文生图模型 CogView3，标志着我国在文本到图像生成技术领域取得了重要突破。相信在不久的将来，这一技术将为我们的生活带来更多便捷和惊喜。

智谱清言AI工具官网：【点击登陆】

开源地址：

https://github.com/THUDM/CogView3

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B