近日,腾讯推出了其混元文生图大模型(HunyuanDiT),这是一个具有划时代意义的开源模型。该模型采用了业内首个中文原生DiT架构,于2024年5月14日全面升级并开源。此次开源,腾讯不仅提供了模型权重和推理代码,还包括了完整的模型算法,使得企业和个人开发者可以免费商用。
腾讯官方宣布,混元 DiT 模型已大幅简化使用流程,用户现在可以通过 ComfyUI 的可视化界面轻松利用腾讯的混元文生图模型。此外,混元 DiT 模型也已集成至 HuggingFaceDiffusers 的通用模型库,用户仅需编写三行代码即可实现对该模型的调用,无需再下载整个代码库。混元文生图大模型采用了与Sora相同的DiT架构,即全新的Hunyuan-DiT架构。,这是一个创新的基于Diffusion Transformer的文本到图像生成模型,它具备了中英文的细粒度理解能力。在混元DiT的研发过程中,腾讯精心设计了Transformer架构、文本编码器和位置编码,以确保模型能够深入理解双语文本。腾讯团队还构建了一个全面的数据处理流程,用于不断地更新和评估数据,以支持模型的持续优化。为了提升对文本细节的理解,腾讯训练了一个多模态大型语言模型,专门用于优化图像生成中的文本描述。因此,混元DiT能够与用户进行多轮互动,根据对话内容生成并改进图像,提供更加精准和丰富的视觉体验。在性能方面,混元文生图大模型在多个维度上进行了评估,结果显示其性能远超目前开源的Stable Diffusion模型,被认为是目前效果最好的开源文生图模型之一。它的整体能力属于国际领先水平。
此外,混元文生图大模型在算法层面实现了多轮生图和对话能力,能够在一张初始生成图片的基础上,通过自然语言描述进行调整。这个模型还特别擅长处理细粒度文本提示生成,例如在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。
腾讯此次选择将混元文生图模型全面开源,旨在与行业共享其在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业的发展。基于腾讯开源的文生图模型,开发者和企业无需从头训练,即可直接用于推理,从而节约大量人力和算力。
随着混元文生图大模型的发布和开源,我们有理由相信,这将极大地推动视觉生成技术的发展,为各行各业带来更多的创新可能。
AITOP100平台资讯专区: https://www.aitop100.cn/infomation/index.html