AI大考翻车？清华、腾讯联手搞的视觉推理测试，模型全懵圈！-AITOP100,AI资讯

AI这次真栽了！视觉推理能力大曝光，模型集体“脑筋短路”？

话说最近，清华大学、腾讯混元，还有斯坦福和卡耐基梅隆的大佬们，一块儿搞了个新玩意儿，叫RBench-V，听起来是不是就很厉害？这玩意儿是干啥的呢？简单来说，就是给现在火得一塌糊涂的多模态大模型们做个“视力+智力”大测验，看看它们是不是真的那么聪明。

RBench-V：不是简单的“看图说话”，还得会“画图思考”！

这RBench-V可不是那种简单的“看图说话”游戏，它包含了803道难题，领域那叫一个广，从几何、图论到力学、电磁学，再到多目标识别、路径规划，简直就是AI界的“奥数竞赛”！而且，以前的测试都是让模型用文字回答问题，这次更狠，直接要求模型自己画图或者改图来辅助推理。这意思就是，AI不光要看懂题目，还得像人一样，画个辅助线，琢磨图形结构，才能找到答案。

测试结果惊呆众人：最强模型也“挂科”，AI离人类还远着呢！

结果呢？测试结果一出来，直接让大家惊掉了下巴！就算是最厉害的o3模型，在RBench-V上的正确率也才25.8%，而人类专家呢？82.3%！这差距，简直是“天壤之别”！谷歌的Gemini2.5模型也紧随其后，但也好不到哪去，只拿了20.2%的分。更扎心的是，很多开源模型的正确率只有8%到10%，有些甚至还不如瞎蒙！