AI这次真栽了!视觉推理能力大曝光,模型集体“脑筋短路”?
话说最近,清华大学、腾讯混元,还有斯坦福和卡耐基梅隆的大佬们,一块儿搞了个新玩意儿,叫RBench-V,听起来是不是就很厉害?这玩意儿是干啥的呢?简单来说,就是给现在火得一塌糊涂的多模态大模型们做个“视力+智力”大测验,看看它们是不是真的那么聪明。
RBench-V:不是简单的“看图说话”,还得会“画图思考”!
这RBench-V可不是那种简单的“看图说话”游戏,它包含了803道难题,领域那叫一个广,从几何、图论到力学、电磁学,再到多目标识别、路径规划,简直就是AI界的“奥数竞赛”!而且,以前的测试都是让模型用文字回答问题,这次更狠,直接要求模型自己画图或者改图来辅助推理。这意思就是,AI不光要看懂题目,还得像人一样,画个辅助线,琢磨图形结构,才能找到答案。
测试结果惊呆众人:最强模型也“挂科”,AI离人类还远着呢!
结果呢?测试结果一出来,直接让大家惊掉了下巴!就算是最厉害的o3模型,在RBench-V上的正确率也才25.8%,而人类专家呢?82.3%!这差距,简直是“天壤之别”!谷歌的Gemini2.5模型也紧随其后,但也好不到哪去,只拿了20.2%的分。更扎心的是,很多开源模型的正确率只有8%到10%,有些甚至还不如瞎蒙!
AI的“小聪明”:只会把图形问题变成“数学题”?
RBench-V的研究表明,现在的大模型在处理复杂几何问题的时候,喜欢偷懒耍小聪明。它们不像人那样,用眼睛看、用直觉想,而是喜欢把图形问题转换成代数公式,用文字推理代替真实的图像操作。说白了,就是它们对图像信息的理解还不够深入,有点“金玉其外,败絮其中”的意思。
未来方向:AI要学会“画图思考”,才能更像人!
研究团队说了,未来的模型需要在推理的过程中主动生成图像,用图像来帮助思考,这样才能真正实现“类人智能”。他们认为,多模态思维链和智能体推理这些新方法,可能是未来人工智能发展的重要方向。
总结一下:
这次RBench-V测试,给那些“自诩聪明”的AI模型们好好上了一课。也让我们看到了,虽然AI发展很快,但要真正达到“类人智能”,还有很长的路要走。希望未来的AI,能学会像人一样思考,而不是只会“死记硬背”!
RBench-V 项目主页:https://evalmodels.github.io/rbenchv/