Appearance
DeepSeek-R1:用强化学习让大模型学会推理
—— DeepSeek 研究团队技术报告
内容摘要
大部分语言模型的推理能力都是靠人工标注的思维链(Chain-of-Thought)数据喂出来的,但这种方法有个根本问题:标注样本太少,而且都是人写的固定套路,模型学不到真正的"怎么想问题"。
DeepSeek团队换了个思路:既然强化学习能教会AlphaGo下围棋,为什么不能教会大模型做推理?他们的R1-Zero版本完全不用监督数据,直接通过答案对错这个简单的奖励信号,让模型自己摸索出了类似人类的推理过程——会分步骤思考、会自我纠错、甚至会验证答案。
不过R1-Zero也有毛病:输出的内容可读性差,有时候中英文混着来,格式也不稳定。所以正式版DeepSeek-R1加了个"冷启动"阶段,先用少量高质量推理数据做监督微调,再接着强化学习训练。结果在数学、编程、科学推理等任务上,R1的表现达到了OpenAI o1-1217的水平。
更重要的是,团队把R1的推理能力蒸馏到了Qwen和Llama系列的小模型上(1.5B到70B),这些蒸馏版本在保持推理能力的同时,推理成本大幅下降。所有模型都开源了。
核心发现
RL能自己训出推理能力 R1-Zero的实验证明了一件事:只要奖励信号设计得对(答案对就给正分,错就给负分),模型能自己探索出有效的推理策略。训练过程中模型自发出现了这些行为:先理解题意、拆解步骤、逐步计算、检查结果、发现错误后重新推导。这些都不是人教的,是模型自己"悟"出来的。
冷启动能解决可读性问题 纯RL训练的R1-Zero虽然推理能力强,但输出质量不行:格式乱、语言混杂、有时候还会自言自语。DeepSeek-R1通过在RL之前先做监督微调(用几千条高质量推理样本),让模型先学会"好好说话",再通过RL继续提升推理深度。这个多阶段训练策略是性能提升的关键。
小模型也能继承推理能力 通过蒸馏技术,团队把R1的推理能力迁移到了参数量小得多的模型上。Qwen-1.5B和Llama-8B这样的小模型,在经过蒸馏后,也能展现出不错的推理能力,推理成本比大模型低几个数量级。这对落地应用来说意义重大。
章节要点速览
第一章 引言 传统的监督微调依赖大量人工标注的推理链,但这种方法难以让模型学到真正的推理能力。强化学习提供了另一条路:通过结果反馈让模型自己探索推理策略。
第二章 主要贡献 开源了DeepSeek-R1-Zero(纯RL训练)、DeepSeek-R1(冷启动+RL)以及6个蒸馏的密集模型。实验表明RL-only训练能自发产生推理行为,多阶段训练能显著提升性能。
第三章 评测结果总结 在AIME 2024、MATH-500、Codeforces等基准测试上,DeepSeek-R1与OpenAI o1-1217性能相当。在数学推理任务上,R1-Zero已经超过了依赖监督微调的DeepSeek-V3。
第四章 方法详解
- R1-Zero:直接在基座模型上做RL,使用答案正确性作为唯一奖励信号
- R1:先用少量推理数据做冷启动SFT,再做RL,同时引入规则奖励避免格式错误
- 蒸馏:用R1生成的推理链数据训练小模型,保持推理能力的同时降低算力需求
第五章 实验 对比了R1-Zero、R1以及蒸馏模型在各类推理任务上的表现,分析了不同训练策略对推理长度、准确率、可读性的影响。
第六章 讨论 探讨了RL训练中的一些现象:模型会自己学会验证答案、会在推理过程中自我纠错,但也会出现"过度思考"导致效率下降的情况。
第七章 结论与展望 DeepSeek-R1证明了RL是提升推理能力的有效方法。未来方向包括更高效的奖励函数设计、多模态推理能力扩展、以及在更多领域的应用。
R1的核心突破在于: 推理能力不一定要靠海量人工标注数据,通过强化学习的试错过程,模型能自己学会"如何思考"。