下一个token预测的技术：智源Emu3模型发布，革新图像、文本、视频多模态AI技术-AITOP100,AI资讯

在人工智能技术的飞速发展中，多模态AI模型作为连接数字世界与物理世界的重要桥梁，正受到越来越多的关注。2024年10月21日，北京智源研究院宣布推出Emu3，一款原生多模态世界模型，它通过单一的基于下一个token预测的技术架构，实现了文本、图像、视频三种模态数据的统一理解和生成。

Emu3模型的核心特点

统一的多模态处理能力： Emu3模型无需依赖于扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。这种统一的架构，极大提升了模型的灵活性与效率。
强大的视觉Tokenizer： Emu3提供了一个强大的视觉Tokenizer，能够将视频和图像转换为离散token，这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中，为Any-to-Any的任务提供了更加统一的研究范式。
卓越的性能表现：在图像生成、视频生成、视觉语言理解等任务中，Emu3的表现超过了SDXL、LLaVA、OpenSora等知名开源模型。在图像生成任务中，基于人类偏好评测，Emu3优于SD-1.5与SDXL模型。在视觉语言理解任务中，对于12项基准测试的平均得分，Emu3优于LlaVA-1.6。在视频生成任务中，对于VBench基准测试得分，Emu3优于OpenSora 1.2 。
直接偏好优化（DPO）：受益于Emu3下一个token预测框架的灵活性，直接偏好优化（DPO）可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

Emu3 为多模态 AI 指出了一条富有想象力的方向，有机会将 AI 基础设施收敛到单一技术路线上，为大规模的多模态训练和推理提供基础。统一的多模态世界模型未来有广泛的潜在应用，包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个 token 有可能通往 AGI。

想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html