Google DeepMind在昨日正式推出——Genie 2,正引领我们进入一个全新的3D世界。这是一个能够生成丰富多样、可操作的3D环境的基础世界模型,为训练和评估具身智能体提供了一个前所未有的平台。
概览
Genie 2的推出标志着Google在构建复杂人工智能系统方面迈出了重要一步。这个模型不仅能够根据单一图像提示生成环境,还能通过键盘和鼠标输入进行交互,为研究人员提供了一个测试和推进AI能力的全新空间。
关键特性和能力
Genie 2的核心特性在于其强大的交互能力和环境生成技术。以下是一些突出的能力:
1.动作控制:Genie 2能够识别并响应键盘上的动作,精准控制角色移动。
2. 生成反事实:从同一起点出发,模型能够生成多种不同的轨迹,为训练智能体提供了模拟反事实体验的可能。
3. 长期记忆:即使视野之外的环境也能被模型记忆,并在再次出现时准确渲染。
4. 长视频生成:Genie 2能够持续生成新内容,保持长达一分钟的连贯世界。
5. 多样环境:模型能够创建第一人称视角、等角视角或第三人称驾驶视频等多种视角。
6. 3D结构:Genie 2学会了创建复杂的3D视觉场景。
7. 物体功能和互动:模型能够模拟各种物体互动,如气球爆炸、开门等。
8. 角色动画:Genie 2能够为不同角色制作动画,展示各种活动。
9. NPCs:模型还能够模拟其他智能体及其复杂互动。
10. 物理:Genie 2模拟了水效果、烟雾、重力、照明和反射等物理现象。
快速原型制作
Genie 2的快速原型制作能力为研究人员提供了一个快速实验新环境的工具,从而加速了具身智能体的研究和开发。这一能力使得概念艺术和绘图能够迅速转变为完全交互式环境,极大地推动了环境设计创意过程。
在世界模型中部署智能体
通过Genie 2,研究人员可以为AI智能体创建丰富多样的环境,并生成智能体在训练期间未见过的评估任务。例如,SIMA智能体就是一个能够遵循自然语言指令在3D游戏世界中完成任务的示例。
模型架构
Genie 2是一个自回归潜在扩散模型,它通过自动编码器和大型变换器动态模型进行训练。在推理时,Genie 2能够以自回归方式采样,逐帧采取个体动作和过去的潜在框架。
负责任的开发
DeepMind致力于负责任地开发技术,Genie 2的开发展示了创建多样化3D环境和加速智能体研究的潜力。这一研究旨在构建更通用的AI系统和智能体,它们能够理解并安全地执行广泛的任务。
结论
Genie 2的开发不仅是技术上的一次飞跃,更是我们向通用人工智能迈进的重要一步。它为我们提供了一个平台,以安全地训练和评估具身智能体,同时实现了向AGI发展的广度和普遍性。随着Genie 2的不断进步,我们期待着它在未来AI研究和应用中的无限可能。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html