2025年8月31日,上海人工智能实验室(上海AI实验室)正式开源发布新一代多模态大模型书生·万象InternVL3.5,凭借三大技术创新——级联式强化学习(Cascade RL)、动态视觉分辨率路由(ViR)与解耦部署架构(DvD),在推理能力、部署效率与通用性上实现全面升级。此次开源覆盖1B到241B九种参数规模,刷新开源模型性能标杆,为多模态AI应用落地注入新动能。
技术突破:推理性能平均提升16%,多任务表现超越GPT-5
InternVL3.5旗舰模型InternVL3.5-241B-A28B在多项权威基准测试中表现亮眼:
- 多学科推理基准MMMU:以77.7分登顶开源模型榜首,超越GPT-5(75.7分);
- 多模态通用感知基准MMStar:取得77.9分,优于GPT-5(80.7分);
- 文本推理基准AIME25/MMLU-Pro:分别达75.6分和81.3分,全面领先现有开源模型。
依托级联式强化学习框架,全系列模型推理性能较上一代平均提升16.0分。其中,241B模型综合推理能力达66.9分,不仅超越上一代(54.6分),更力压Claude-3.7-Sonnet(53.9分),在数学、逻辑等复杂任务中展现卓越能力。
部署效率:4倍速度提升,轻量化模型性能不缩水
针对实际部署痛点,书生·万象InternVL3.5推出两项核心优化:
- 动态视觉分辨率路由(ViR):38B模型在896分辨率下,单次推理延迟从369ms压缩至91ms,速度提升4倍;
- 解耦部署框架(DvD):轻量化版本InternVL3.5-Flash将视觉序列长度减少50%的同时,性能保持近100%。
这一突破让模型适配不同硬件场景:8B模型单卡A100即可运行,38B需2卡,235B仅需8卡,大幅降低企业部署门槛。
智能体能力升级:GUI定位、具身智能全面突破
InternVL3.5深度强化智能体核心能力,在多项专项测试中表现突出:
- ScreenSpot GUI定位:得分92.9分,精准识别界面元素;
- VSI-Bench空间推理:获69.5分,复杂场景理解能力显著提升;
- SGP-Bench矢量图生成:达70.6分,支持高精度SVG图形操作。
开源生态:全尺寸覆盖,训练框架无缝对接
此次开源提供10亿至2410亿参数九种模型,包含稠密模型与专家混合模型(MoE),并首次支持GPT-OSS语言模型基座。开发者可通过魔搭社区框架ms-swift快速微调:
- 数据准备为特定格式后即可自定义训练;
- 训练完成后一键推理,模型可推送至ModelScope平台。
行业影响:推动多模态AI普惠化
书生·万象InternVL3.5的发布标志着多模态技术从实验室走向大规模应用的关键一步。其全尺寸覆盖与高效部署特性,既满足科研机构的高性能需求,也适配中小企业低成本场景。通过开源生态,上海AI实验室正加速构建多模态AI技术标准,为医疗、教育、工业等领域智能化转型提供核心支撑。
体验与资源:
- 代码与模型:GitHub开源仓库
- 模型合集:ModelScope平台
- 在线Demo:书生万象官方体验平台
(本文由AI辅助生成,部分内容人工编辑)
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码: