360智脑开源Light-R1-14B-DS模型：强化学习赋能，数学推理能力显著提升-AITOP100,AI资讯

360智脑开源Light-R1-14B-DS模型，数学推理能力突破

近日，360智脑团队宣布在AI领域取得重要进展，成功复现Deepseek的强化学习效果，并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B，成为业界在14B参数规模上实现强化学习效果的模型，从而显著地提升了数学推理能力，在相关测试中的成绩超过大多数32B级别模型。

360智脑开源Light-R1-14B-DS模型

Light-R1-14B-DS*：数学竞赛任务表现卓越

与 DeepSeek-R1-14B 相比，Light-R1-14B-DS在数学竞赛任务中表现突出：在 AIME24测试中提升4.3分，在 AIME25中更是提高10分。此外，在衡量数学推理能力的任务 GPQA 上，该模型也取得了61.7分的优异成绩，证明了其强大的数学问题解决能力。

创新训练方法：Curriculum SFT与强化学习

为了实现这一突破性的成果，360智脑团队采用了两种创新性的训练方法。其一是 Curriculum SFT（渐进式监督微调），通过分阶段训练的方式，让模型能够从简单的数学问题逐步过渡到复杂的问题，从而进一步增强其逻辑推理能力和对复杂问题的理解能力。其二是强化学习(RL)，这也是首次在14B级别的推理模型上成功应用强化学习技术，这不仅显著提升了推理的准确率，还能够确保模型的其他技能基本上没有受到任何的损害。

开源共享，推动AI推理能力普及

此次发布的内容不仅包括模型本身，360智脑团队还开源了 SFT 数据、代码以及相关的技术报告，为人工智能领域的研究者和开发者提供了宝贵的资源。这一成果标志着中小规模的模型在强化学习领域取得了重大的进展，并且有潜力推动人工智能推理能力的进一步普及与发展，为相关应用带来更多的可能性。

360智脑AI工具地址：【点击登陆】

DeepSeek AI大模型地址：【点击登陆】

想了解更多AI创作软件工具请关注AI人工智能网站--AITOP100平台--AI工具集