2025年8月13日,昆仑万维在SkyWork AI技术发布周第3天,正式开源了新一代多模态模型「Skywork UniPic 2.0」。这一统一多模态建模框架的发布,不仅为开发者提供了更高效的工具,还标志着多模态AI从“单一功能”向“全能型”迈出了关键一步。
三大核心模块,构建“理解-生成-编辑”一体化能力
Skywork UniPic 2.0基于SD3.5-Medium架构,但做了颠覆性升级:原本仅支持文本输入的模型,现在可同时接受文本和图像输入,生图能力扩展为“生图+编辑”双模式。具体来说,它由三大模块组成:
- 生图编辑模块:负责图像生成与细节调整;
- 统一模型能力:通过冻结Qwen2.5-VL-7B多模态模型与Pre-Train连接器,构建理解与生成的基础;
- 生图编辑后训练:通过联合微调,让模型真正实现“理解指令、生成图像、编辑内容”一体化。
简单来说,以前需要多个模型配合的任务,现在一个Skywork UniPic 2.0就能搞定!
2B参数小身材,性能超越“大块头”
别看Skywork UniPic 2.0的生成模块仅基于2B参数的SD3.5-Medium架构训练,但它的生图和编辑指标却超越了参数更大的同类模型。这得益于两大创新:
- 轻量化设计:通过优化生成和编辑模块,减少冗余计算,提升效率;
- 渐进式双任务强化学习:引入Flow-GRPO策略,让模型在生成和编辑任务中“边学边练”,显著提升对复杂指令的理解能力,生成图像的一致性也更强。
全面开源,开发者“零门槛”上手
昆仑万维这次直接“放大招”——Skywork UniPic 2.0完全开源!开发者可以免费获取模型权重、推理代码、强化策略等全套资源,无需从头训练,直接部署或二次开发。这种开放态度,无疑会加速多模态AI在各领域的应用落地。
模型地址: https://huggingface.co/Skywork/UniPic2-Metaquery-9B (海外网站需要科学上网)
多模态竞争升级,昆仑万维挑战行业格局
此前,多模态AI领域已有Google Gemini、OpenAI DALL·E等头部玩家,但Skywork UniPic 2.0凭借其高效、统一、开源的特点,迅速吸引了开发者关注。尤其是对中小企业和研究机构而言,低门槛、高性能的模型更具吸引力。未来,多模态AI的竞争将不再局限于“参数大小”,而是转向“效率、易用性和生态开放度”。
昆仑万维的Skywork UniPic 2.0,用“小参数”实现了“大突破”,为多模态AI树立了新标杆。无论是开发者还是行业观察者,都值得关注这一模型的后续发展。毕竟,在AI领域,开放和创新永远是推动进步的核心动力。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: