360智脑开源Light-R1-14B-DS模型,数学推理能力突破
近日,360智脑团队宣布在AI领域取得重要进展,成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界在14B参数规模上实现强化学习效果的模型,从而显著地提升了数学推理能力,在相关测试中的成绩超过大多数32B级别模型。
Light-R1-14B-DS*:数学竞赛任务表现卓越
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在衡量数学推理能力的任务 GPQA 上,该模型也取得了61.7分的优异成绩,证明了其强大的数学问题解决能力。
创新训练方法:Curriculum SFT与强化学习
为了实现这一突破性的成果,360智脑团队采用了两种创新性的训练方法。其一是 Curriculum SFT(渐进式监督微调),通过分阶段训练的方式,让模型能够从简单的数学问题逐步过渡到复杂的问题,从而进一步增强其逻辑推理能力和对复杂问题的理解能力。其二是 强化学习(RL),这也是首次在14B级别的推理模型上成功应用强化学习技术,这不仅显著提升了推理的准确率,还能够确保模型的其他技能基本上没有受到任何的损害。
开源共享,推动AI推理能力普及
此次发布的内容不仅包括模型本身,360智脑团队还开源了 SFT 数据、代码以及相关的技术报告,为人工智能领域的研究者和开发者提供了宝贵的资源。这一成果标志着中小规模的模型在强化学习领域取得了重大的进展,并且有潜力推动人工智能推理能力的进一步普及与发展,为相关应用带来更多的可能性。
360智脑AI工具地址:【点击登陆】