• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

字节跳动刚刚发布了 UNO!

字节跳动刚刚发布了 UNO!
AI TOP100
2025-04-09 17:42:48

UNO是什么?

uno

UNO 是一个由字节跳动(ByteDance)研究团队开发的多主体条件图像生成模型。它通过扩散变换器的上下文生成能力,生成高一致性的多主体配对数据。

UNO 的核心特点是:

  • 多图像条件生成:支持单主体和多主体驱动的图像生成。
  • 渐进式跨模态对齐:通过逐步对齐不同模态(如文本和图像)来提高生成一致性。
  • 通用旋转位置嵌入:支持多种分辨率和长宽比的图像生成。


UNO快速入门

环境配置

  1. 创建虚拟环境并安装依赖:
python -m venv uno_env
source uno_env/bin/activate
pip install -r requirements.txt

2.下载模型权重:自动下载:运行推理脚本时,代码会自动下载权重。手动下载:使用 huggingface-cli 下载权重到指定目录。

推理示例

运行以下命令生成图像:

python inference.py --prompt "A clock on the beach is under a red sun umbrella" --image_paths "assets/clock.png" --width 704 --height 704

训练

运行训练脚本:

accelerate launch train.py

应用场景

UNO 可以用于以下场景:

  • 单主体生成:根据一张参考图像生成图像。
  • 多主体生成:根据多张参考图像生成图像。
  • 上下文生成:通过上下文提示生成高一致性的图像。

应用限制

  • UNO 在单主体和多主体生成中表现出色,但在泛化能力上仍有提升空间。
  • 模型训练数据集的限制可能导致某些场景的生成效果不佳。

开源计划

项目已开源,包括:

  • 推理代码
  • 训练代码
  • 模型权重
  • arXiv 论文
  • Hugging Face 空间演示
  • 上下文数据生成管道

引用

如果您使用 UNO,请引用以下论文:

@article{wu2025less,
  title={Less-to-More Generalization: Unlocking More Controllability by In-Context Generation},
  author={Wu, Shaojin and Huang, Mengqi and Wu, Wenxu and Cheng, Yufeng and Ding, Fei and He, Qian},
  journal={arXiv preprint arXiv:2504.02160},
  year={2025}
}

项目页面:https://bytedance.github.io/UNO

代码:https://github.com/bytedance/UNO

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 月之暗面上线Kimi Linear架构,AI注意力机制要变天?

  • 魔珐科技发布全球首个具身智能开放平台魔珐星云,3D数字人实现毫秒级实时交互

  • 芒果TV抛出「版权+AI+资金」三板斧,AIGC微短剧要变天?

  • MiniMax发布Speech 2.6模型:实现低于250ms延迟与30秒音色复刻

  • SoulX-Podcast正式上线:90分钟无中断播客生成,方言双语自由切换

热点资讯

Cursor 2.0正式上线,自研模型Composer打破AI外壳,代码效率提升4倍!

3天前
Cursor 2.0正式上线,自研模型Composer打破AI外壳,代码效率提升4倍!

DeepSeek模型横扫港大美股交易赛,年化回报率10.61%碾压全球AI对手

5天前
DeepSeek模型横扫港大美股交易赛,年化回报率10.61%碾压全球AI对手

中国科大与字节上线MoGA长视频生成模型,分钟级短片一键生成

9天前
中国科大与字节上线MoGA长视频生成模型,分钟级短片一键生成

Adobe Firefly Image5发布:支持400万像素原生生成与分层编辑

4天前
Adobe Firefly Image5发布:支持400万像素原生生成与分层编辑

美团LongCat-Video上线,5分钟长视频生成不再是梦!

6天前
美团LongCat-Video上线,5分钟长视频生成不再是梦!
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有