CogView4：智谱AI开源中文文生图模型，图像生成新突破-AITOP100,AI资讯

智谱 AI发布CogView4：首个开源中文文生图模型

智谱AI发布了最新的开源文生图模型CogView4。该模型参数量达到6亿，全面支持中文输入与中文文本到图像生成，并被称为“首个能在画面中生成汉字的开源模型”。

CogView4的核心优势在于支持中英双语提示词输入，尤其擅长理解和执行复杂的中文指令，极大地便利了中文内容创作者。作为首个能在图像中生成汉字的开源文生图模型，它填补了开源领域在该方向上的空白。此外，该模型支持生成任意宽高比的图片，并且能够处理任意长度的提示词输入，展现了高度的灵活性。

CogView4的双语能力得益于技术架构的全面升级。其文本编码器升级为GLM-4，能够同时处理中英双语输入，打破了以往开源模型仅支持英文的限制。据悉，为了保证模型在中文语境下的生成质量，CogView4使用了中英双语图文对进行训练。

在文本处理方面，CogView4采用了动态文本长度方案，取代了传统的固定长度设计。当平均描述文本长度为200-300个词元时，与固定512词元的传统方案相比，冗余减少约50%，训练效率提升5%-30%。这一创新不仅优化了计算资源的使用，还使模型能更高效地处理不同长度的提示词。

CogView4支持生成任意分辨率的图像，这背后是多项技术突破。该模型采用混合分辨率训练，结合二维旋转位置编码和内插位置表示，以适应不同的尺寸需求。此外，它还基于Flow-matching扩散模型和参数化线性动态噪声规划，进一步提高了生成图像的质量和多样性。

CogView4的训练流程分为多个阶段：从基础分辨率训练开始，到泛分辨率适配，再到高质量数据微调，最后通过人类偏好对齐优化输出。该过程保留了Share-param DiT架构，同时为不同模态引入独立的自适应层归一化，确保模型在多种任务中的稳定性和一致性。

智谱AI开源中文文生图模型-CogView4地址：【点击登录】

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集