360智脑团队成功复现Deepseek强化学习效果，发布开源模型Light-R1-14B-DS

近日，360智脑团队宣布成功复现Deepseek的强化学习效果，并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B，成为业界首款在14B参数规模上实现强化学习效果的模型，显著提升了数学推理能力，成绩超过大多数32B级别模型。

360智脑团队成功复现Deepseek强化学习效果，发布开源模型Light-R1-14B-DS-Mo 动态

与 DeepSeek-R1-14B 相比，Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分，在 AIME25中更是提高10分。此外，在数学推理任务 GPQA 上，该模型取得61.7分的优异成绩。

为实现这一突破，360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT（渐进式监督微调），通过分阶段训练，让模型从简单数学问题逐步过渡到复杂问题，进一步增强逻辑推理能力。其次是强化学习(RL)，首次在14B级别推理模型上成功应用，不仅提升推理准确率，还确保其他技能基本无损。

此次发布不仅包括模型本身，还开源了 SFT数据、代码及技术报告，为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展，或将推动AI推理能力的进一步普及与发展。

项目地址:https://github.com/Qihoo360/Light-R1

模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS

数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

来源https://www.aibase.com/zh/