AI圈炸了!昆仑万维R1V2.0开源,这波福利必须抓住!
嘿,小伙伴们,最近AI圈的大新闻必须跟大家唠唠!昆仑万维直接放大招,开源了他们家的多模态推理模型Skywork-R1V2.0,简称R1V2.0。这玩意儿可厉害了,升级后的版本在看图说话(视觉推理)和读懂文字(文本推理)方面都蹭蹭往上涨,尤其是在解高考理科难题上,简直就像开了外挂!说是目前市面上最均衡的开源多模态模型,那可真不是吹的。
这次开源,不仅展示了昆仑万维在AI技术上的硬实力,更重要的是,它给全球的开发者和研究人员送来了一个超级强大的工具箱,大家可以一起把多模态生态玩得更转。这模型在好几个权威的测评里都刷爆了纪录,性能直逼那些闭源的商业模型,简直让人不敢相信这是免费的!
中文场景才是主战场!理科生必备AI解题神器
R1V2.0在中文环境下的表现,那才叫一个绝!特别是数学、物理、化学这些理科题目,用它来解题,简直就是请了个免费的AI家教。它在MMMU测试中拿到了73.6分,直接刷新了开源模型的最高分记录。还在Olympiad Bench上搞到了62.6分,把其他的开源模型甩开了好几条街。在MathVision、MMMU-PRO和MathVista这些视觉推理榜单上,R1V2.0也表现得相当抢眼,不少能力已经能和那些收费的商业模型掰手腕了。
不仅能看图解题,R1V2.0在文字推理方面也毫不逊色。它在AIME2024和LiveCodeBench这些挑战中分别取得了78.9分和63.6分,展现了像人类专家一样的数学和代码理解能力。这说明啥?说明R1V2.0不光会看图,还会思考!
技术控看过来:多模态奖励模型和混合偏好优化是关键
R1V2.0之所以这么牛,背后是各种技术创新在撑腰。其中,最值得关注的就是他们家新推出的多模态奖励模型Skywork-VL Reward和混合偏好优化机制(MPO)。
Skywork-VL Reward模型能为多模态强化学习提供高质量的奖励信号,可以精准地评估多模态推理模型长序列输出的整体水平。这个模型在视觉奖励模型评测榜单VL-RewardBench中取得了73.1的SOTA成绩,同时在纯文本奖励模型评测榜单RewardBench中也拿下了高达90.1的优异分数,充分展示了它在多模态和文本任务中的强大通用能力。
MPO机制则通过同时优化多种损失函数,解决了大模型训练中“提升深度推理能力”和“保持通用能力”之间的矛盾。R1V2.0借助Skywork-VL Reward提供的偏好信号,引导模型进行偏好一致性优化,从而确保模型在多任务、多领域下都能轻松应对。此外,R1V2.0在训练深度推理能力时,还采用了基于规则的群体相对策略优化GRPO方法,通过比较同组候选答案之间的相对奖励,引导模型学会更准确的选择和推理路径。
开源才是王道!加速AGI时代到来
昆仑万维一直致力于推动人工智能的开源和创新。这次R1V2.0的开源,是他们在多模态领域的一个重要里程碑。这个模型的38B权重和完整的技术报告已经在Hugging Face和GitHub上全面开源,开发者可以随便用,随便改!
昆仑万维说了,开源才能推动创新,AGI(通用人工智能)终究会到来。R1V2.0不仅突破了开源多模态大模型的能力边界,还为多模态智能体的搭建提供了新的基础模型。未来,昆仑万维将继续坚持“开源、开放、共创”的理念,不断推出领先的大模型和数据集,赋能开发者,推动行业协同创新,加速通用人工智能(AGI)的实现进程。这泼天的富贵,终于轮到咱们了!
github代码地址: https://github.com/SkyworkAI/Skywork-R1V