• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

字节跳动刚刚发布了 UNO!

字节跳动刚刚发布了 UNO!
AI TOP100
2025-04-09 17:42:48

UNO是什么?

uno

UNO 是一个由字节跳动(ByteDance)研究团队开发的多主体条件图像生成模型。它通过扩散变换器的上下文生成能力,生成高一致性的多主体配对数据。

UNO 的核心特点是:

  • 多图像条件生成:支持单主体和多主体驱动的图像生成。
  • 渐进式跨模态对齐:通过逐步对齐不同模态(如文本和图像)来提高生成一致性。
  • 通用旋转位置嵌入:支持多种分辨率和长宽比的图像生成。


UNO快速入门

环境配置

  1. 创建虚拟环境并安装依赖:
python -m venv uno_env
source uno_env/bin/activate
pip install -r requirements.txt

2.下载模型权重:自动下载:运行推理脚本时,代码会自动下载权重。手动下载:使用 huggingface-cli 下载权重到指定目录。

推理示例

运行以下命令生成图像:

python inference.py --prompt "A clock on the beach is under a red sun umbrella" --image_paths "assets/clock.png" --width 704 --height 704

训练

运行训练脚本:

accelerate launch train.py

应用场景

UNO 可以用于以下场景:

  • 单主体生成:根据一张参考图像生成图像。
  • 多主体生成:根据多张参考图像生成图像。
  • 上下文生成:通过上下文提示生成高一致性的图像。

应用限制

  • UNO 在单主体和多主体生成中表现出色,但在泛化能力上仍有提升空间。
  • 模型训练数据集的限制可能导致某些场景的生成效果不佳。

开源计划

项目已开源,包括:

  • 推理代码
  • 训练代码
  • 模型权重
  • arXiv 论文
  • Hugging Face 空间演示
  • 上下文数据生成管道

引用

如果您使用 UNO,请引用以下论文:

@article{wu2025less,
  title={Less-to-More Generalization: Unlocking More Controllability by In-Context Generation},
  author={Wu, Shaojin and Huang, Mengqi and Wu, Wenxu and Cheng, Yufeng and Ding, Fei and He, Qian},
  journal={arXiv preprint arXiv:2504.02160},
  year={2025}
}

项目页面:https://bytedance.github.io/UNO

代码:https://github.com/bytedance/UNO

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 编程党狂喜!阿里千问Qwen Coding Plan上线 双新模型适配拉满

  • 魔法原子成总台《2026春晚》智能机器人战略合作伙伴,“具身智能”走到聚光灯下

  • 豆包联动总台春晚上线“开好运锦囊”:超10万份科技好礼、最高8888元现金红包

  • 卷疯编程赛道!MiniMax M2.5上线 可直接调用对标顶尖

  • 智谱 GLM-5 正式开源!登顶开源SOTA全球榜单第四

热点资讯

花样滑冰AI裁判引争议!毫秒级骨骼追踪判 “绝对完美”,人类裁判集体抗议

8天前
花样滑冰AI裁判引争议!毫秒级骨骼追踪判 “绝对完美”,人类裁判集体抗议

豆包联动总台春晚上线“开好运锦囊”:超10万份科技好礼、最高8888元现金红包

5天前
豆包联动总台春晚上线“开好运锦囊”:超10万份科技好礼、最高8888元现金红包

魔法原子成总台《2026春晚》智能机器人战略合作伙伴,“具身智能”走到聚光灯下

5天前
魔法原子成总台《2026春晚》智能机器人战略合作伙伴,“具身智能”走到聚光灯下

编程党狂喜!阿里千问Qwen Coding Plan上线 双新模型适配拉满

9小时前
编程党狂喜!阿里千问Qwen Coding Plan上线 双新模型适配拉满

谷歌三连炸!Lyria3+Google Music上线,Gemini3.1更新

8小时前
谷歌三连炸!Lyria3+Google Music上线,Gemini3.1更新
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有