• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI音乐
    AI对口型
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI漫剧创作热门-AI社区
AI 对话

阿里千问视觉模型SpatialBench登顶,实力碾压GPT-5.1和Gemini 3.0 Pro!

阿里千问视觉模型SpatialBench登顶,实力碾压GPT-5.1和Gemini 3.0 Pro!
AI TOP100
4小时前

在人工智能领域,空间推理能力一直是衡量模型性能的重要指标之一,尤其是在涉及复杂场景理解、3D物体检测以及路径规划等任务时,强大的空间推理能力能让模型更好地模拟人类对物理世界的认知。

2025年11月26日,阿里千问视觉模型在第三方权威空间推理榜单SpatialBench上取得了令人瞩目的成绩,Qwen3-VL以13.5分的高分登顶,Qwen2.5-VL也以12.9分位居第二,大幅领先Gemini3.0Pro Preview(9.6分)与GPT-5.1(7.5分),这一成绩标志着阿里在空间推理领域的技术实力迈上了一个新台阶,距离人类基线80分又近了一步。


模型地址: https://huggingface.co/collections/Qwen/qwen3-vl Qwen3-VL

SpatialBench榜单:空间推理的“试金石”

SpatialBench榜单可不是一个普通的榜单,它专注于评估模型在2D/3D空间、结构以及路径推理方面的能力,涵盖了电路分析、CAD工程、分子生物学等众多复杂且具有挑战性的任务。这些任务不仅要求模型具备对空间信息的精准捕捉和理解能力,还需要能够进行逻辑推理和决策,因此被业界视为“具身智能试金石”。能够在这样的榜单上取得优异成绩,无疑证明了模型在空间推理领域的卓越实力。

Qwen3-VL模型亮点:3D检测升级与多维度能力拓展

3D检测能力显著提升

Qwen3-VL在3D检测方面进行了重大升级,新增了旋转框输出与深度估计头。这一改进使得模型在处理遮挡场景时表现更加出色,遮挡场景下的平均精度(AP)提升了18%。同时,它还能够准确判断物体的方位以及视角变化,为复杂场景下的物体识别和定位提供了更可靠的依据。例如,在物流仓储场景中,面对堆叠在一起的货物,Qwen3-VL可以精准地识别出每个货物的位置和方向,大大提高了物流作业的效率和准确性。

视觉编程:所见即所得

除了3D检测能力的升级,Qwen3-VL还具备独特的视觉编程功能。用户只需输入草图或者一段10秒的短视频,模型就能够生成可运行的Python + OpenCV代码,实现“所见即所得”的效果。这一功能为开发者提供了极大的便利,无需手动编写复杂的代码,就能够快速实现特定的视觉任务,大大缩短了开发周期,降低了开发成本。例如,在工业检测领域,工程师可以通过绘制简单的草图,让模型自动生成检测代码,快速搭建起检测系统,提高生产效率。

规模多样,满足不同需求

为了满足不同用户和应用场景的需求,Qwen3-VL提供了多种规模的模型选择。包括2B、4B、8B、32B的密集模型,以及30B - A3B、235B - A22B的MoE(Mixture of Experts)版本。这些不同规模的模型在性能和资源消耗上各有优势,用户可以根据自己的实际需求进行选择。而且,在推理版的32项核心能力测试中,Qwen3-VL平均超越Gemini2.5 - Pro 6.4分,展现出了强大的综合实力。

开源节奏:推动技术共享与进步

在开源方面,阿里也展现出了开放和共享的态度。Qwen2.5 - VL已经全量开源,这意味着全球的开发者都可以免费获取和使用该模型的代码和权重,进行二次开发和应用创新。而Qwen3 - VL也预计在2025年第二季度释放权重与工具链,并同步上线千问App供用户免费体验。这种开源策略不仅有助于推动空间推理技术的发展和进步,还能够促进学术界和产业界的交流与合作,加速技术的落地应用。

落地进展:多场景应用初显成效

阿里云透露,Qwen3 - VL已经在多个实际场景中进行了概念验证(POC),并取得了良好的效果。在物流机器人领域,模型的空间定位误差小于2厘米,能够精确地引导机器人完成货物的搬运和分拣任务;在AR装配场景中,Qwen3 - VL可以实时识别装配部件的位置和姿态,为工人提供准确的装配指导,提高装配效率和质量;在智慧港口场景中,模型能够对港口内的船舶、集装箱等物体进行精准识别和跟踪,优化港口的物流调度和管理。

此外,阿里还计划在2026年推出“视觉 - 动作”端到端模型,为机器人提供实时视觉伺服能力。这意味着机器人将能够根据视觉信息实时调整自己的动作,实现更加智能和灵活的操作,进一步拓展机器人的应用范围和场景。

Qwen3-VL

结语

阿里千问视觉模型Qwen3 - VL在SpatialBench榜单上的优异表现,以及其在3D检测、视觉编程等方面的创新突破,为我们展示了空间推理技术的巨大潜力。随着开源政策的推进和多场景应用的不断拓展,相信Qwen系列模型将在更多领域发挥重要作用,为人工智能的发展和应用带来新的机遇和挑战。我们期待着未来能够看到更多基于这些先进技术的创新应用,为我们的生活和工作带来更多的便利和改变。


想了解AITOP100平台其它版块的内容,请点击下方超链接查看

AI创作大赛 | AI活动 | AI工具集 | AI资讯专区

AITOP100平台官方交流社群二维码:

aitop100官方交流30群

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 谷歌Gemini
  • ChatGPT
相关资讯
  • 清华大学发布首个系统性《人工智能教育应用指导原则》:为AI教育应用划定清晰边界

  • 夸克AI浏览器“外挂级”体验来袭:系统底层集成,Chrome插件时代落幕?

  • 阿里千问视觉模型SpatialBench登顶,实力碾压GPT-5.1和Gemini 3.0 Pro!

  • 200亿漫剧赛道,AI漫剧与真人短剧差异大揭秘

  • 森马上线“大森3.0”平台:集成600余个AI助理,推动全员智能协作

热点资讯

2025年11月18日重磅!蚂蚁集团灵光App震撼上线,30秒生成应用不是梦

9天前
2025年11月18日重磅!蚂蚁集团灵光App震撼上线,30秒生成应用不是梦

Google Gemini 3.0 即将震撼发布!百万级上下文+全模态推理引领AI新时代

9天前
 Google Gemini 3.0 即将震撼发布!百万级上下文+全模态推理引领AI新时代

谷歌NotebookLM迎来史诗级更新!PPT制作神器Slide Decks正式上线,效率起飞!

6天前
谷歌NotebookLM迎来史诗级更新!PPT制作神器Slide Decks正式上线,效率起飞!

AI漫剧广告消耗激增,巨量引擎日均投放达千万级

8天前
AI漫剧广告消耗激增,巨量引擎日均投放达千万级

xAI推出Grok 4.1:免费升级,性能飙升,能否撼动AI模型格局?

9天前
xAI推出Grok 4.1:免费升级,性能飙升,能否撼动AI模型格局?
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有