Skip to content

DeepSeek-R1:用强化学习让大模型学会推理

—— DeepSeek 研究团队技术报告

内容摘要

大部分语言模型的推理能力都是靠人工标注的思维链(Chain-of-Thought)数据喂出来的,但这种方法有个根本问题:标注样本太少,而且都是人写的固定套路,模型学不到真正的"怎么想问题"。

DeepSeek团队换了个思路:既然强化学习能教会AlphaGo下围棋,为什么不能教会大模型做推理?他们的R1-Zero版本完全不用监督数据,直接通过答案对错这个简单的奖励信号,让模型自己摸索出了类似人类的推理过程——会分步骤思考、会自我纠错、甚至会验证答案。

不过R1-Zero也有毛病:输出的内容可读性差,有时候中英文混着来,格式也不稳定。所以正式版DeepSeek-R1加了个"冷启动"阶段,先用少量高质量推理数据做监督微调,再接着强化学习训练。结果在数学、编程、科学推理等任务上,R1的表现达到了OpenAI o1-1217的水平。

更重要的是,团队把R1的推理能力蒸馏到了Qwen和Llama系列的小模型上(1.5B到70B),这些蒸馏版本在保持推理能力的同时,推理成本大幅下降。所有模型都开源了。

核心发现

RL能自己训出推理能力 R1-Zero的实验证明了一件事:只要奖励信号设计得对(答案对就给正分,错就给负分),模型能自己探索出有效的推理策略。训练过程中模型自发出现了这些行为:先理解题意、拆解步骤、逐步计算、检查结果、发现错误后重新推导。这些都不是人教的,是模型自己"悟"出来的。

冷启动能解决可读性问题 纯RL训练的R1-Zero虽然推理能力强,但输出质量不行:格式乱、语言混杂、有时候还会自言自语。DeepSeek-R1通过在RL之前先做监督微调(用几千条高质量推理样本),让模型先学会"好好说话",再通过RL继续提升推理深度。这个多阶段训练策略是性能提升的关键。

小模型也能继承推理能力 通过蒸馏技术,团队把R1的推理能力迁移到了参数量小得多的模型上。Qwen-1.5B和Llama-8B这样的小模型,在经过蒸馏后,也能展现出不错的推理能力,推理成本比大模型低几个数量级。这对落地应用来说意义重大。

章节要点速览

第一章 引言 传统的监督微调依赖大量人工标注的推理链,但这种方法难以让模型学到真正的推理能力。强化学习提供了另一条路:通过结果反馈让模型自己探索推理策略。

第二章 主要贡献 开源了DeepSeek-R1-Zero(纯RL训练)、DeepSeek-R1(冷启动+RL)以及6个蒸馏的密集模型。实验表明RL-only训练能自发产生推理行为,多阶段训练能显著提升性能。

第三章 评测结果总结 在AIME 2024、MATH-500、Codeforces等基准测试上,DeepSeek-R1与OpenAI o1-1217性能相当。在数学推理任务上,R1-Zero已经超过了依赖监督微调的DeepSeek-V3。

第四章 方法详解

  • R1-Zero:直接在基座模型上做RL,使用答案正确性作为唯一奖励信号
  • R1:先用少量推理数据做冷启动SFT,再做RL,同时引入规则奖励避免格式错误
  • 蒸馏:用R1生成的推理链数据训练小模型,保持推理能力的同时降低算力需求

第五章 实验 对比了R1-Zero、R1以及蒸馏模型在各类推理任务上的表现,分析了不同训练策略对推理长度、准确率、可读性的影响。

第六章 讨论 探讨了RL训练中的一些现象:模型会自己学会验证答案、会在推理过程中自我纠错,但也会出现"过度思考"导致效率下降的情况。

第七章 结论与展望 DeepSeek-R1证明了RL是提升推理能力的有效方法。未来方向包括更高效的奖励函数设计、多模态推理能力扩展、以及在更多领域的应用。

R1的核心突破在于: 推理能力不一定要靠海量人工标注数据,通过强化学习的试错过程,模型能自己学会"如何思考"。


点击这里查看完整论文(PDF)