DeepSeek-R1：用强化学习让大模型学会推理

内容摘要

大部分语言模型的推理能力都是靠人工标注的思维链（Chain-of-Thought）数据喂出来的，但这种方法有个根本问题：标注样本太少，而且都是人写的固定套路，模型学不到真正的"怎么想问题"。

DeepSeek团队换了个思路：既然强化学习能教会AlphaGo下围棋，为什么不能教会大模型做推理？他们的R1-Zero版本完全不用监督数据，直接通过答案对错这个简单的奖励信号，让模型自己摸索出了类似人类的推理过程——会分步骤思考、会自我纠错、甚至会验证答案。

不过R1-Zero也有毛病：输出的内容可读性差，有时候中英文混着来，格式也不稳定。所以正式版DeepSeek-R1加了个"冷启动"阶段，先用少量高质量推理数据做监督微调，再接着强化学习训练。结果在数学、编程、科学推理等任务上，R1的表现达到了OpenAI o1-1217的水平。

更重要的是，团队把R1的推理能力蒸馏到了Qwen和Llama系列的小模型上（1.5B到70B），这些蒸馏版本在保持推理能力的同时，推理成本大幅下降。所有模型都开源了。

RL能自己训出推理能力 R1-Zero的实验证明了一件事：只要奖励信号设计得对（答案对就给正分，错就给负分），模型能自己探索出有效的推理策略。训练过程中模型自发出现了这些行为：先理解题意、拆解步骤、逐步计算、检查结果、发现错误后重新推导。这些都不是人教的，是模型自己"悟"出来的。

冷启动能解决可读性问题 纯RL训练的R1-Zero虽然推理能力强，但输出质量不行：格式乱、语言混杂、有时候还会自言自语。DeepSeek-R1通过在RL之前先做监督微调（用几千条高质量推理样本），让模型先学会"好好说话"，再通过RL继续提升推理深度。这个多阶段训练策略是性能提升的关键。

小模型也能继承推理能力 通过蒸馏技术，团队把R1的推理能力迁移到了参数量小得多的模型上。Qwen-1.5B和Llama-8B这样的小模型，在经过蒸馏后，也能展现出不错的推理能力，推理成本比大模型低几个数量级。这对落地应用来说意义重大。

第一章引言 传统的监督微调依赖大量人工标注的推理链，但这种方法难以让模型学到真正的推理能力。强化学习提供了另一条路：通过结果反馈让模型自己探索推理策略。

第二章主要贡献 开源了DeepSeek-R1-Zero（纯RL训练）、DeepSeek-R1（冷启动+RL）以及6个蒸馏的密集模型。实验表明RL-only训练能自发产生推理行为，多阶段训练能显著提升性能。

第三章评测结果总结 在AIME 2024、MATH-500、Codeforces等基准测试上，DeepSeek-R1与OpenAI o1-1217性能相当。在数学推理任务上，R1-Zero已经超过了依赖监督微调的DeepSeek-V3。

第四章方法详解

第五章实验 对比了R1-Zero、R1以及蒸馏模型在各类推理任务上的表现，分析了不同训练策略对推理长度、准确率、可读性的影响。

第六章讨论 探讨了RL训练中的一些现象：模型会自己学会验证答案、会在推理过程中自我纠错，但也会出现"过度思考"导致效率下降的情况。

第七章结论与展望 DeepSeek-R1证明了RL是提升推理能力的有效方法。未来方向包括更高效的奖励函数设计、多模态推理能力扩展、以及在更多领域的应用。

R1的核心突破在于：推理能力不一定要靠海量人工标注数据，通过强化学习的试错过程，模型能自己学会"如何思考"。