1月26日,腾讯混元正式发布混元图像 3.0 图生图(HunyuanImage 3.0-Instruct)模型。该模型在原生多模态架构基础上,新增了强大的图片编辑与多图融合能力,目前已在 “元宝” App 全端及腾讯混元官网同步上线,用户可通过自然语言指令实现精细化的图像创作。

核心能力:80亿参数 MoE 架构与指令理解
混元图像 3.0 图生图模型总参数量约为80 亿,激活参数约13 亿。模型采用混合专家(MoE)架构,基于混元图像 3.0 的原生多模态底座,引入了大规模图生图多任务数据进行训练。

该模型被定义为一款 “会思考” 的图像编辑模型。它不仅能理解输入图像的像素内容,还能根据用户指令推理出需要编辑的具体区域和操作步骤。其能力边界覆盖了增删改、风格变换、老照片修复以及人物/文字修改等多种复杂场景。此外,模型还具备强大的多图融合能力,能够从多张照片中提取元素(如人物)并合成新的协调画面。
应用场景:创作与生产的双重赋能
混元图像 3.0 图生图模型的上线,极大地简化了图像处理的工作流。无论是在个人创作还是专业生产领域,都提供了高效的解决方案。
面向个人创作
- 社交娱乐: 表情包制作、虚拟人物合拍。
- 创意设计: 游戏角色定制、个性化头像生成。
- 生活记录: 老照片修复、旅游照路人消除。
面向专业生产
- 营销视觉: 电商海报快速生成与迭代。
- 品牌资产: 品牌视觉元素的风格化迁移。
- 文档处理: 影像文档的清晰化与去噪。

训练与对齐:思维链与 MixGRPO 算法
为了实现高精度的指令遵循,混元团队构建了千万量级的图生图数据集,覆盖超过 80 种任务类型。这些数据来源于图像/视频原始挖掘及专家网络合成,并在持续训练(CT)阶段注入模型。
值得注意的是,腾讯混元在图生图领域引入了类似大语言模型的“思维链”(Chain of Thought)机制:
1、感知与分析 模型首先对用户输入的图像内容和意图进行深度分析。
2、策略规划 输出详细的编辑指令,规划需要保留的区域和需要修改的细节。
3、执行与对齐 采用自研 MixGRPO 算法,结合奖励模型进行多轮迭代,确保生成的图像符合人类偏好,并严格保持非编辑区域的一致性。
AITOP100资讯观察
混元图像 3.0 图生图模型通过 “理解—推理—编辑—融合” 的端到端链路,显著降低了高质量图像创作的门槛。随着该模型在“元宝”及官网的全面开放,预计将在电商设计、社交媒体内容生产及影像修复等领域加速落地,为用户提供更智能、更便捷的视觉创造工具。

AITOP100工具指引
腾讯元宝: https://www.aitop100.cn/tools/detail/1899.html
腾讯混元大模型: https://www.aitop100.cn/tools/hunyuan
AITOP100-AI资讯频道将持续关注AI行业新闻资讯消息,带来最新AI内容讯息。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区 | AI小说
AITOP100平台官方交流社群二维码:










