一、背景
随着人工智能技术的不断发展,文本到图像生成技术逐渐成为研究热点。近日,我国智谱团队在这一领域取得重要突破,宣布开源文生图模型 CogView3 及 CogView3-Plus-3B,为文本到图像生成技术带来新的变革。
二、CogView3 模型介绍
1. 级联扩散技术
CogView3 是一款基于级联扩散的 text2img 模型,包含三个阶段:低分辨率生成、中分辨率超分辨率生成和高分辨率迭代生成。这种设计使得模型在保证图像质量的同时,提高了生成效率。
2. 性能优势
据官方数据显示,CogView3 在人工评估中,性能优于目前最先进的开源文本到图像扩散模型 SDXL,高出 77.0%。同时,推理时间仅为 SDXL 的 1/10,大幅提高了生成速度。
三、CogView3-Plus 模型亮点
1. DiT 框架
CogView3-Plus 模型在 CogView3 的基础上,引入了最新的 DiT 框架。这一框架有助于提高模型的基本能力,同时降低训练和推理成本。
2. Zero-SNR 扩散噪声调度
CogView3-Plus 采用 Zero-SNR 扩散噪声调度,有效提高了图像生成质量。此外,模型还引入了文本-图像联合注意力机制,进一步提升生成效果。
3. 潜在维度为 16 的 VAE
CogView3-Plus 使用潜在维度为 16 的 VAE,在保持模型性能的同时,降低了计算复杂度。
四、应用前景
智谱团队此次开源的 CogView3 及 CogView3-Plus-3B 模型,将为文本到图像生成领域带来新的发展机遇。通过“智谱清言”App 等平台,这些先进技术将广泛应用于创意设计、虚拟现实、游戏开发等领域,助力我国人工智能产业发展。
智谱团队开源文生图模型 CogView3,标志着我国在文本到图像生成技术领域取得了重要突破。相信在不久的将来,这一技术将为我们的生活带来更多便捷和惊喜。
开源地址:
https://github.com/THUDM/CogView3
https://huggingface.co/THUDM/CogView3-Plus-3B
https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B