阿里通义千问开源Qwen-Image：重新定义图像生成与编辑新标准-AITOP100,AI资讯

近年来，AI图像生成技术飞速发展，从简单的图片生成到复杂场景的精准渲染，技术不断突破边界。而就在最近，阿里通义千问团队开源了一款名为Qwen-Image的20亿参数多模态扩散变换器（MMDiT）图像生成基础模型，凭借其强大的文本渲染能力和专业的图像编辑功能，迅速成为行业焦点。无论是复杂文本的精准呈现，还是专业级的图像编辑操作，Qwen-Image都展现了令人惊艳的实力。

Qwen-Image

Qwen-Image大模型特点

1.文本渲染：中英文双管齐下，细节拉满

Qwen-Image最突出的特点之一就是其强大的文本渲染能力。无论是中文还是英文，它都能实现高保真输出，甚至支持多行布局、段落级文本生成，以及细粒度细节的呈现。

举个例子，在生成宫崎骏风格的动漫场景时，Qwen-Image不仅能精准呈现店铺牌匾上的文字，还能细致刻画人物姿势和神态，甚至连酒缸上的细小文字都清晰可见。而在中文对联的渲染中，它不仅能准确绘制左右联和横批，还能巧妙融入书法效果，让整体画面更具艺术感。

英文文本渲染方面，Qwen-Image同样表现出色。无论是书店橱窗的展示信息，还是复杂的信息图表，它都能准确无误地生成文本内容，并自然融入整体构图。更厉害的是，即使处理更小或更多的文字，比如手中纸张上的长段文字，或玻璃板上的手写体段落，Qwen-Image依然能保持高度的准确性和清晰度。

2.图像编辑：一键实现专业级操作，降低创作门槛

除了文本渲染，Qwen-Image在图像编辑方面也展现了非凡实力。通过增强的多任务训练范式，它在编辑过程中能出色保持一致性，支持风格迁移、物体增减、细节增强及人物姿态调整等多种操作。

这意味着，普通用户无需掌握复杂的图像处理软件，也能轻松实现专业级的图像编辑。比如，你可以用Qwen-Image快速调整人物姿势，或者为图片添加新的元素，甚至改变整体风格，让创作变得更加简单高效。

Qwen-Image大模型性能领先：多项基准测试刷新纪录

Qwen-Image的实力不仅体现在功能上，更在多项公开基准测试中得到了验证。从通用图像生成的GenEval、DPG和OneIG-Bench，到图像编辑的GEdit、ImgEdit和GSO，Qwen-Image均取得了最先进的性能，展现了其在图像生成与编辑方面的全面优势。

尤其是在中文文本渲染方面，Qwen-Image大幅领先现有最先进模型，进一步凸显了其作为先进图像生成模型的独特地位。

Qwen-Image

开源共享：让更多人体验AI的魅力

目前，Qwen-Image已在魔搭社区、Hugging Face及GitHub等平台开源，并提供了详细的Technical report和Demo展示。用户可以通过访问QwenChat（chat.qwen.ai）选择“图像生成”功能，亲身体验这款强大模型的魅力。

ModelScope地址：https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face地址：https://huggingface.co/Qwen/Qwen-Image
GitHub地址：https://github.com/QwenLM/Qwen-Image

总结：Qwen-Image的开源，不仅为AI图像生成领域注入了新的活力，也为普通用户和专业创作者提供了更强大的工具。无论是文本渲染的精准度，还是图像编辑的灵活性，Qwen-Image都展现了其作为行业领先模型的实力。如果你对AI图像生成感兴趣，不妨亲自体验一下这款开源模型，感受它带来的创作自由与无限可能。

想了解AITOP100平台其它版块的内容，请点击下方超链接查看

AI 创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码：