字节跳动开源UI-TARS-1.5：让AI玩游戏、操作软件，简直不要太溜！-AITOP100,AI资讯

听说没？字节跳动豆包 AI团队放大招了！他们开源了UI-TARS-1.5，这可是个多模态智能体，简单说就是个超级聪明的AI，能在虚拟世界里帮你干各种活儿！不管是操作软件还是玩游戏，那都是小菜一碟。听说在各种评测里，它都拿了第一，简直牛到家了！

UI-TARS-1.5有多厉害？

这玩意儿可不是花架子，它是基于字节跳动之前的UI-TARS升级的。这次升级重点强化了它的思考能力，让它在行动之前先动动脑子。就像咱们人类一样，先想清楚再动手，这样才能把事情做好嘛！这种“思考-再行动”的机制，让UI-TARS-1.5在面对新环境和新任务时，表现得更加出色。比之前那些所谓的“最优模型”强多了！举个例子，在GUI Grounding评估中，UI-TARS-1.5在ScreenSpotPro上的准确率达到了61.6%，直接秒杀Claude和CUA，比之前的“最优模型”也高出一大截！

不光会操作软件，还会玩游戏！

更让人惊喜的是，UI-TARS-1.5玩游戏也很厉害！他们在poki.com上找了14款不同风格的小游戏给它测试，结果它表现得相当出色，而且还很稳定。更进一步，他们还在《我的世界》（Minecraft）里测试了它的能力。结果呢？它在“寻找并破坏特定方块”和“搜索并击败敌对生物”这两个任务中都取得了最高的成功率！尤其是开启“思考模块”之后，表现更上一层楼，再次证明了“思考-再行动”机制的有效性。

UI-TARS-1.5成功的秘诀

UI-TARS-1.5之所以这么厉害，是因为背后有强大的技术支撑。主要体现在四个方面：增强视觉感知、System2推理机制、统一动作建模以及可自我演化的训练方法。通过这些技术，UI-TARS-1.5能够精准地操作GUI界面，并在复杂的任务中表现出色。比如说，你想让它“把字体调大”，普通的AI可能理解不了，但UI-TARS能迅速找到“设置”入口，然后根据已有的知识推理出正确的路径，精准地完成操作！

未来的发展

UI-TARS团队认为，智能体的演进方向正在从框架向模型转变。UI-TARS属于“原生智能体模型”，它拥有完整的感知、推理、记忆、行动一体化结构，可以在训练中不断积累知识和经验，具备更强的泛化能力和适应能力。这种“从数据出发”的闭环模式，让UI-TARS不再依赖人工规则和提示工程，也无需重复设定交互步骤，大大降低了开发门槛。

未来，UI-TARS团队将继续通过强化学习来提升UI-TARS在复杂任务中的性能表现，争取达到接近人类的水平。同时，他们还将继续优化UI-TARS的产品体验，进一步提升使用流畅度并丰富交互能力。UI-TARS-1.5的开源，无疑为开发者和研究人员提供了一个强大的工具，将有力地推动多模态智能体技术的发展。希望未来能看到更多基于UI-TARS的创新应用，让AI真正地融入我们的生活！

想了解更多AI创作软件工具请关注AI 人工智能网站--AITOP100平台--AI工具集