智谱AI发布CogView4:首个开源中文文生图模型
智谱AI发布了最新的开源文生图模型CogView4。该模型参数量达到6亿,全面支持中文输入与中文文本到图像生成,并被称为“首个能在画面中生成汉字的开源模型”。
CogView4的核心优势在于支持中英双语提示词输入,尤其擅长理解和执行复杂的中文指令,极大地便利了中文内容创作者。作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域在该方向上的空白。此外,该模型支持生成任意宽高比的图片,并且能够处理任意长度的提示词输入,展现了高度的灵活性。
CogView4的双语能力得益于技术架构的全面升级。其文本编码器升级为GLM-4,能够同时处理中英双语输入,打破了以往开源模型仅支持英文的限制。据悉,为了保证模型在中文语境下的生成质量,CogView4使用了中英双语图文对进行训练。
在文本处理方面,CogView4采用了动态文本长度方案,取代了传统的固定长度设计。当平均描述文本长度为200-300个词元时,与固定512词元的传统方案相比,冗余减少约50%,训练效率提升5%-30%。这一创新不仅优化了计算资源的使用,还使模型能更高效地处理不同长度的提示词。
CogView4的技术亮点
CogView4支持生成任意分辨率的图像,这背后是多项技术突破。该模型采用混合分辨率训练,结合二维旋转位置编码和内插位置表示,以适应不同的尺寸需求。此外,它还基于Flow-matching扩散模型和参数化线性动态噪声规划,进一步提高了生成图像的质量和多样性。
CogView4的训练流程分为多个阶段:从基础分辨率训练开始,到泛分辨率适配,再到高质量数据微调,最后通过人类偏好对齐优化输出。该过程保留了Share-param DiT架构,同时为不同模态引入独立的自适应层归一化,确保模型在多种任务中的稳定性和一致性。
智谱AI开源中文文生图模型-CogView4地址:【点击登录】