在人工智能技术的飞速发展中,多模态AI模型作为连接数字世界与物理世界的重要桥梁,正受到越来越多的关注。2024年10月21日,北京智源研究院宣布推出Emu3,一款原生多模态世界模型,它通过单一的基于下一个token预测的技术架构,实现了文本、图像、视频三种模态数据的统一理解和生成。
Emu3模型的核心特点
- 统一的多模态处理能力: Emu3模型无需依赖于扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。这种统一的架构,极大提升了模型的灵活性与效率 。
- 强大的视觉Tokenizer: Emu3提供了一个强大的视觉Tokenizer,能够将视频和图像转换为离散token,这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中,为Any-to-Any的任务提供了更加统一的研究范式 。
- 卓越的性能表现: 在图像生成、视频生成、视觉语言理解等任务中,Emu3的表现超过了SDXL、LLaVA、OpenSora等知名开源模型。在图像生成任务中,基于人类偏好评测,Emu3优于SD-1.5与SDXL模型。在视觉语言理解任务中,对于12项基准测试的平均得分,Emu3优于LlaVA-1.6。在视频生成任务中,对于VBench基准测试得分,Emu3优于OpenSora 1.2 。
- 直接偏好优化(DPO): 受益于Emu3下一个token预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致 。
应用场景
- 内容创作: 艺术家和设计师可以利用Emu3根据文本描述自动生成图像和视频,快速实现创意。
- 教育: Emu3将复杂概念可视化,增强学生的学习体验。
- 娱乐产业: 游戏和电影制作可以借助Emu3创造逼真的虚拟环境。
- 设计和建筑: 设计师可以利用Emu3生成设计原型和建筑渲染图,提高设计效率。
Emu3 为多模态 AI 指出了一条富有想象力的方向,有机会将 AI 基础设施收敛到单一技术路线上,为大规模的多模态训练和推理提供基础。统一的多模态世界模型未来有广泛的潜在应用,包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个 token 有可能通往 AGI。
想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html