多模态AI迎来“强推理”时代:昆仑万维R1V开启新格局
自DeepSeek-R1问世以来,业界一直在期待“强推理、慢思考”的大模型能够进化为多模态模式。如果能在视觉等领域复制强化学习(RL)在文本上的突破,AI应用无疑将迎来新的发展阶段。
众多科技公司都在积极探索这一方向。
3月18日,昆仑万维正式发布了Skywork R1V(简称R1V)系列模型,该模型在视觉推理和通用推理能力方面均达到了SOTA级别。随着新模型的发布,昆仑万维成为国内第一家开源多模态思维链推理模型的企业。
目前,昆仑万维已经开源了R1V的模型权重和技术报告。
- Hugging Face地址:https://huggingface.co/Skywork/Skywork-R1V-38B
- Github地址:https://github.com/SkyworkAI/Skywork-R1V
- 技术报告地址:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf
R1V的表现如何?多项基准测试表明,R1V-38B相较于文本推理模型,在数学推理、代码生成等任务中已达到领先水平,部分任务甚至接近更大尺寸的闭源模型。与传统的OpenAI 4o、Claude 3.5 Sonnet等多模态模型相比,R1V的推理能力遥遥领先,甚至超越了多模态开源大模型DeepSeek V3。
在推理能力方面,R1V-38B同样达到了顶尖水平。在权威的MATH500和AIME数学推理基准测试中,R1V分别取得了94.0和72.0的高分,展现出了人类专家级的逻辑推理和数学问题求解能力,在众多主流模型中脱颖而出。
在视觉能力方面,R1V成功地将强大的文本推理能力迁移到多模态领域,在视觉推理任务中表现出色。凭借创新的跨模态迁移技术与优化框架,R1V在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的成绩,不仅超越了多个开源竞品模型,更达到了与更大规模闭源模型媲美的水平。
值得关注的是,R1V成为全球范围内首个在数学推理能力上接近OpenAI o1的开源多模态模型。
DeepSeek的突破让我们看到了在大模型中引入强化学习的潜力。现在,昆仑万维的实践似乎也为多模态打开了新的方向。
R1V赋能多模态:拓展AI应用边界
昆仑万维表示,R1V视觉推理模型可以同时处理文本与视觉信息,拥有强大的跨模态推理能力,能够轻松应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。
由于多模态+强推理能力,大模型拥有了“眼睛”,也拓展了诸多新的应用方向。
我们搜集了一些不同学科(包括数学、化学、医学等)的题目,对R1V的解题推理能力进行了一系列测试。
首先是一道2025考研数学题目:
R1V迅速给出了完整的解题思路和正确答案:
接下来,我们让R1V分析下图化学分子式描述的是哪种立体几何构型:
这类题目要求多模态推理模型熟练、准确地判断、区分各类化学分子图。经过了抽丝剥茧的推理过程,R1V给出了正确答案。
R1V的知识面不止于此,它甚至还略懂医学影像。我们让它分析这张CT图片。需要说明的是,分析结果仅供参考,最终的诊断和治疗应由医生根据实际情况来做出。
最后,我们还测试了R1V的其他视觉推理能力,例如柱状图的数值分析:
可见,无论是数学等学科的一般性问题,还是需要更强“眼力”的视觉场景,R1V都能应付自如。
三大核心技术创新:R1V如何实现多模态强推理
为什么R1V能够实现多模态强推理?通过R1V发布的技术报告,我们可以了解其中的技术创新。
视觉多模态的特殊性决定了其推理与数学、逻辑等自然语言推理的不同,前者需要解决跨模态对齐等挑战。尽管当前的视觉语言模型(VLM)在描述性任务(如为图像生成连贯且上下文相关的文本描述)方面表现出色,但在几何证明、科学问答等涉及深度逻辑的多模态任务中仍然不如单模态系统。
图片来自英伟达博客:https://developer.nvidia.com/blog/vision-language-model-prompt-engineering-guide-for-image-and-video-understanding/
对此,学界提出将具有推理能力的语言模型集成到VLM中来增强后者的推理能力。虽然这一方案很有潜力,但实现过程中也面临挑战。例如,推理任务的独特性要求在训练时使用专门的推理格式的数据,然而当前的VLM数据集主要由非推理内容组成,即使是一些包含VLM思维链的示例,也往往缺乏高级推理任务所需的复杂性。
此外,VLM的推理能力提升也依赖多模态表征学习、知识增强、模块化架构设计等技术层面的协同进步。昆仑万维的R1V在这些方面取得了突破。
作为一个VLM推理模型,R1V采用高效的多模态迁移方法,最大限度地保留了文本推理能力,同时优化了视觉任务表现。此外,R1V提出了通过混合优化策略来加强视觉文本对齐,显著提升了跨模态集成效率。最后,R1V引入了自适应长度思维链蒸馏方法来生成推理数据。
正是有了这三大核心技术的支撑,R1-V才取得了领先的多模态推理性能。接下来我们将逐一解析。
一,高效多模态推理能力迁移。该工作首次提出了利用轻量级Skywork-VL视觉投影器,使R1V模型实现了无缝多模态适应。这样一来,无需重新训练基础语言模型或视觉编码器,就能高效地将文本推理能力迁移到视觉任务中,同时保留原有优秀的推理文本能力。
二,多模态混合式训练。具体来说,是将迭代监督微调(Iterative SFT)与DeepSeek-R1的核心RL算法群组(相对策略优化,GRPO)相结合,分阶段地对齐视觉-文本表征,实现跨模态任务的高效融合,从而大幅提升跨模态任务的表现。
在迭代监督微调阶段,针对利用奖励模型从全部数据中挑选出的高质量数据以及在前序训练过程中模型未能正确处理的难点数据,进行反复迭代微调,使R1V持续地巩固自身知识并自我纠错,稳步提升视觉推理能力。
在GRPO强化学习阶段,不额外引入评判器,仅对R1V生成的不同答案进行组内对比学习,最终大幅提升多模态推理的稳定性、精度和泛化表现。
下图为混合优化框架的示意图,包括三个细化步骤:基于完整数据集的原始训练、利用自定义数据的迭代训练以及强化学习。这三个阶段共同作用,成为R1V多模态推理能力提升的关键。
多模态混合式训练
三,自适应长度思维链蒸馏(AL-CoTD)。R1V引入了一种基于视觉-文本复杂度的自适应推理链长度控制机制,可以对模型的推理过程进行动态优化,在提升推理效率的同时避免模型过度思考。此外,结合多阶段自蒸馏策略,提升了数据生成与推理过程的质量,确保模型在复杂多模态任务中依然有出色的表现。
下图为具体的流程,包括质量和难度评估模块(QDAM),从视觉评分和文本评分两个主要维度来系统地评估图像-文本查询对;视觉-文本集成分析器(VTIA),通过句法和语义分析确定跨模态集成所需的深度,并根据图像-文本查询中的模式识别来计算集成评分;动态推理长度控制器(DRLC)以及在此基础上形成的多阶段自蒸馏pipeline。
AL-CoTD流程
除了整体技术方案的优化,R1V的创新性还体现在训练过程中,通过“三阶段方法”将文本端强大的推理能力高效迁移至视觉任务上。
首先是视觉语言表征的初始对齐。训练时,首先使用轻量级的视觉适配器(MLP)连接视觉编码器(ViT)与语言模型,在已有的200万条常规多模态数据上进行训练,使MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器,在保持视觉编码器和语言模型的参数冻结不变的情况下,快速、高效地实现视觉与语言表征的初步对齐。
其次是推理能力迁移。基于第一阶段训练好的MLP适配器,直接将视觉编码器与原始的强推理语言模型(R1-distilled-Qwen-32B)连接,形成R1V视觉推理模型。虽然此时语言模型的参数发生了改变,但得益于语言模型架构的高度相似性和MLP的泛化能力,重组后的模型已能表现出一定的视觉推理能力,初始性能即达到了业内同等规模的先进水平。
最后是视觉与文本模态精准对齐,即上面提到的“混合优化框架”,结合迭代监督微调和GRPO进一步精准对齐视觉和语言模态表征。
结果显而易见,高效的训练策略带来了R1V视觉推理任务的突破性进展,在跨多学科的不同公开评测基准中达到或超过了现有领先模型的性能,具体可见下表1(与开源近似尺寸横向对比)、图1(与开源同等及更大尺寸模型对比)和图2(与开源大尺寸模型以及闭源专有模型对比)。
表1:与开源近似尺寸模型横向对比
图1:与开源同等及更大尺寸模型对比
图2:与开源更大尺寸模型以及闭源专有模型对比
在开源R1V模型并公开方法后,昆仑万维希望推动全球范围内的学术研究与产业应用探索。此外,昆仑万维Skywork团队正在进行从视觉多模态跨越到全模态的技术探索,将包括“文本、视觉、语音”在内所有环节打通并开源。
为此,该团队设计了一种在R1V模型中灵活扩展语音模态的方式,从而构建了一个全模态思考大模型,不仅在单个模型中同时实现了图像、视频、语音的全模态理解能力,还在语音和视觉理解评测中取得多项SOTA成绩。未来将公布相关评测成绩并同样开源这一全模态思考大模型。
结语:开源浪潮下的AI加速
从今年1月DeepSeek-R1的提出,到多模态大模型、甚至自动驾驶的VLM中加入GRPO,仅仅过去了不到两个月。在这一波开源浪潮下,AI领域的发展再次加速,下一次突破可能已近在眼前。
然而,在这股浪潮中,能算得上引领潮流的团队只是少数。
进入大模型时代之后,昆仑万维在多模态领域的探索备受关注。过去三年,昆仑万维在音乐大模型、文本大模型和视频模型等方向取得了一系列成绩,建立了自己的AI产品矩阵,包括懂金融、学术的天工AI搜索、全球首个AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等等。
今年2月,昆仑万维发布世界模型Matrix-Zero系列,将探索延伸到了AI领域最前沿的方向。在可以模拟物理世界的AI模型中,我们可以运行许多实验和仿真任务,或者完成不同以往的影视创作。再加上今天开源的R1V大模型,在让大模型实现多模态强推理之后,AI面对物理世界获得了更强大的理解、推理、交互能力。
此举也彰显了昆仑万维在AI时代始终秉持的开源初心。过去几年,这家“All in AGI”的AI科技公司在推出前沿大模型及技术的同时,一直通过开源回馈社区与开发者,先后开源了百亿级“天工”Skywork-13B系列、2千亿参数稀疏大模型Skywork-MoE和国内首个面向AI短剧创作的视频生成模型SkyReels-V1等。这些举措在扩大自身技术影响力的同时,无疑也对开源社区、开发生态和整个AI行业的健康发展起到了积极作用。
一面是技术前沿的开拓,一面是更多样化的整合与落地,昆仑万维已经形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的产业链。
似乎已经可以隐隐听到AGI的脚步声了。








