DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

论文概览

快速判断这篇论文

论文 PDF 代码

提出 DeepSeek-R1-Zero 与 DeepSeek-R1，展示大语言模型可以通过可验证任务上的大规模强化学习自发形成长链推理、反思与验证能力，并进一步通过多阶段训练和蒸馏把强推理能力迁移到更小模型。

领域自然语言处理

年份 2025

发表于 Nature 2025

状态已完成

评分 5/5

阅读日期 2026-04-10

作者：DeepSeek-AI, Daya Guo, Dejian Yang 等

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, et al.

📋 论文概述

DeepSeek-R1 是推理型大语言模型训练范式中的关键论文。它的核心问题不是再设计一个新的 Transformer 结构，而是回答一个更直接的问题：如果给基础模型足够多可验证的难题、可靠奖励和强化学习计算，模型能不能自己学出长链推理能力？

论文给出的答案是肯定的。作者先训练 DeepSeek-R1-Zero：从 DeepSeek-V3-Base 出发，不经过常规 SFT，直接用 GRPO 在数学、代码和 STEM 等可验证任务上做大规模强化学习。训练过程中，模型自发出现了更长的思考链、自我验证、反思、重新规划等行为。随后作者构建 DeepSeek-R1：在 R1-Zero 的基础上加入冷启动 SFT、语言一致性奖励、拒绝采样、通用指令数据和最终 RL 对齐，解决 R1-Zero 的可读性差、语言混杂和通用能力不足问题。

这篇论文的重要性在于：它把推理能力从“人类写出高质量 CoT 轨迹，再让模型模仿”推进到“用可验证奖励让模型探索自己的推理轨迹”。论文还展示了蒸馏路线：用 DeepSeek-R1 生成的 80 万条样本微调 Qwen/Llama 等开源模型，使小模型也获得很强的推理能力。

🎯 研究动机

CoT 与 SFT 的依赖问题：传统推理增强通常需要人工标注或人工风格的 reasoning traces，成本高、扩展性差，而且可能限制模型探索非人类式但有效的推理策略。
复杂推理仍不足：LLM 在基础推理任务上已经有效，但数学竞赛、代码竞赛、STEM 难题等领域仍需要更强的多步搜索、验证和纠错能力。
可验证任务提供了天然反馈：数学题、编程题、部分 STEM 题可以通过标准答案或测试用例判断最终结果，适合 outcome-based RL。
推理能力需要可迁移：如果只训练一个超大模型，使用门槛仍然高；论文希望把强模型的推理轨迹蒸馏给更小的开源模型。

🔬 主要方法

核心思想

论文的核心思路可以概括为：

用可验证问题作为 RL 环境。
只对最终答案正确性和格式给奖励，尽量不规定中间推理内容。
允许模型通过长输出自行搜索、反思和修正。
用多阶段训练把“纯 RL 得到的推理能力”转化成“可读、稳定、通用、对齐”的产品级模型。
用强模型输出蒸馏小模型，使推理能力低成本扩散。

GRPO：替代 PPO 的组相对策略优化

DeepSeek-R1 系列使用 GRPO（Group Relative Policy Optimization）。它和 PPO 的直觉区别是：不训练额外的 value model，而是对同一个问题采样一组回答，用这一组回答的奖励均值和标准差来归一化每个回答的 advantage。

具体流程：

对一个问题采样多个候选回答。
对每个回答计算奖励。
用组内相对表现估计 advantage。
用带 clip 和 KL 正则的目标更新策略模型。

这样做的好处是训练流程更轻，少一个 value model，适合大规模 LLM RL。代价是奖励质量非常关键，一旦 verifier 不可靠，模型会更容易走向 reward hacking。

DeepSeek-R1-Zero：不做 SFT，直接 RL

R1-Zero 是论文最有研究价值的部分。它从 DeepSeek-V3-Base 开始，跳过传统 SFT，直接用 GRPO 在 reasoning prompts 上训练。

奖励主要由两部分组成：

准确性奖励：最终答案能否匹配标准答案，或代码是否通过测试。
格式奖励：模型是否按要求把思考过程和最终答案分开，例如使用 <think> 与 <answer> 结构。

关键点是：作者没有用神经网络式过程奖励模型去评价每一步推理是否正确，也没有要求模型模仿人类标注的推理轨迹。模型只被要求给出结构化输出，并通过最终结果拿到反馈。

训练结果很有启发：AIME 2024 的 pass@1 从初始约 15.6% 提升到 77.9%，配合 self-consistency 可到 86.7%。训练过程中，模型的平均输出长度增加，并自发出现反思、检查、尝试替代解法等行为。论文把这种突然增强的自我修正行为称为 “aha moment”。

DeepSeek-R1：把强推理能力做成可用模型

R1-Zero 虽然证明纯 RL 能激发推理能力，但也有明显问题：输出可读性差、中英混杂、对写作和开放问答等通用任务支持不足。因此 DeepSeek-R1 使用多阶段 pipeline：

冷启动 SFT
收集少量高质量长 CoT 数据，让模型先具备更可读、对话化、语言一致的推理格式。
第一阶段 RL
在 reasoning tasks 上继续用 GRPO 强化推理能力，同时加入语言一致性奖励，缓解 CoT 中的语言混杂。
拒绝采样 + SFT
用中间模型生成候选推理轨迹，过滤和精炼后得到更多 reasoning 数据；同时混入 non-reasoning 数据，让模型保留写作、问答、指令遵循等通用能力。
第二阶段 RL
对 reasoning 数据继续使用规则奖励；对通用数据使用 helpfulness / safety reward model 和格式奖励；同时加入语言奖励。这个阶段的目标不是只刷数学和代码，而是把推理能力、通用对齐、可读性和安全性放到同一个训练过程里平衡。

这个设计体现了论文的一个重要判断：RL 适合探索可验证任务中的推理轨迹，SFT 适合处理奖励难定义的开放任务；两者不是替代关系，而是互补关系。

蒸馏：把长 CoT 能力迁移到小模型

论文还训练了多个蒸馏模型：DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B 和 DeepSeek-R1-Distill-Llama-8B/70B。做法是用 DeepSeek-R1 生成约 80 万条样本，对开源基础模型做 SFT，不额外加入 RL 阶段。

一个重要发现是：对于较小模型，直接用强教师模型的推理输出做蒸馏，往往比从小模型自己开始做大规模 RL 更经济、更有效。论文中 DeepSeek-R1-Distill-Qwen-32B 在 AIME、MATH-500、GPQA、LiveCodeBench 等基准上明显强于 Qwen2.5-32B-Zero。

📊 实验结果

主要基准

DeepSeek-R1 在推理类任务上接近或达到当时最强模型水平：

任务	DeepSeek-R1	备注
AIME 2024	79.8% pass@1	数学竞赛推理
MATH-500	97.3% pass@1	数学题集
GPQA Diamond	71.5% pass@1	研究生级科学问答
LiveCodeBench	65.9% pass@1-CoT	编程能力
Codeforces	rating 2029 / percentile 96.3	竞赛编程
MMLU-Pro	84.0% EM	高难综合知识
ArenaHard	92.3	开放问答/偏好评测

分阶段效果

从 R1-Zero 到最终 R1，变化很清楚：

R1-Zero 的 reasoning benchmark 很强，但 IF-Eval、ArenaHard 等指令遵循/用户偏好指标偏弱。
冷启动和后续 SFT 让输出更可读，但早期 Dev1 会牺牲部分纯 reasoning 性能。
第二阶段 reasoning RL 重新提升数学、代码、STEM 能力。
混入 non-reasoning 数据与最终 RL 后，AlpacaEval、ArenaHard、Aider-Polyglot 等通用和工程指标提升明显。

蒸馏模型表现

蒸馏结果说明“推理轨迹”本身可以成为高价值训练数据：

蒸馏模型	AIME 2024 pass@1	MATH-500	GPQA Diamond	LiveCodeBench
R1-Distill-Qwen-1.5B	28.9	83.9	33.8	16.9
R1-Distill-Qwen-7B	55.5	92.8	49.1	37.6
R1-Distill-Qwen-32B	72.6	94.3	62.1	57.2
R1-Distill-Llama-70B	70.0	94.5	65.2	57.5

即使 1.5B 级别模型也获得了明显数学推理提升；随着参数规模增大，蒸馏收益继续增强。

💭 个人评价

✅ 优点

研究问题抓得准：不再只讨论 CoT prompt 或人工推理数据，而是直接验证“可验证奖励 + RL 是否能诱导推理能力”。
R1-Zero 的实验价值很高：跳过 SFT 让结论更干净，可以更清楚地观察 RL 本身带来的长 CoT、反思和自我验证。
工程 pipeline 完整：论文没有停留在 demo，而是展示了如何把纯 RL 产物修正为可读、可用、对齐的 DeepSeek-R1。
蒸馏路线实用：用强推理模型产出高质量轨迹，再训练小模型，这条路线对开源社区和低成本部署非常关键。
负结果有价值：论文明确讨论 PRM 与 MCTS 在大规模训练中的困难，避免把所有推理增强方法都简单套到 LLM 上。

⚠️ 缺点

强依赖可验证奖励：数学、代码、部分 STEM 很适合；写作、开放问答、复杂真实任务的奖励定义仍然困难。
算力门槛很高：纯 RL 从基础模型激发推理能力需要足够强的 base checkpoint 和大规模 rollout，对普通研究团队不友好。
过程可解释性仍有限：模型会输出长 CoT，但这些 CoT 不一定等同于真实内部机制；训练奖励也主要依赖最终结果。
安全风险更复杂：推理能力增强后，越狱、危险规划、可执行攻击方案等风险也会增强。
工具使用能力不足：论文承认 R1 不能原生利用搜索、计算器、编译器等工具；这限制了真实任务中的可靠性和效率。
token 效率问题明显：长推理会带来 overthinking，简单问题也可能消耗过多推理 token。

💡 启发

推理模型的核心资产可能是 verifier：只要能构造可靠反馈，模型就能通过 RL 发现人类没有显式标注的策略。
SFT 和 RL 的边界更清晰：SFT 用来教格式、风格、通用能力；RL 用来在可验证任务上探索高收益策略。
蒸馏是小模型推理能力的短期主线：对小模型来说，先学习强模型的推理数据，比自己从零大规模 RL 更划算。
未来的突破点可能在工具增强 RL：如果把编译器、搜索、证明器、仿真器、实验反馈纳入 verifier，推理模型的任务范围会大很多。
评测要关注 token 成本：只看准确率会高估长 CoT 的实用性，实际应用中还要比较延迟、费用和过度推理率。

🔗 相关论文

前置工作：

Chain-of-Thought Prompting - 显式中间推理步骤的基础方法
Self-Consistency - 多条推理路径投票提升鲁棒性
PPO / RLHF - LLM 后训练与对齐的经典路线
DeepSeek-V3 - DeepSeek-R1 的基础模型来源

同方向工作：

OpenAI o1 - 推理型模型的重要参照
QwQ-32B-Preview - 开源推理模型参照
Process Reward Model 相关工作 - 过程级奖励与 reranking
Tree of Thoughts / MCTS for LLM reasoning - 搜索式推理增强

后续关注：

Tool-augmented reasoning RL
Verifier 设计与 reward hacking 防护
小模型 reasoning distillation
长 CoT 的可解释性与 token 效率

📝 详细笔记

为什么 R1-Zero 重要？

R1-Zero 的价值在于它把“推理能力来自人类示范”这个假设削弱了。模型没有先看人工长链推理样本，而是只在可验证任务上接受最终结果反馈。它仍然学出了长 CoT 和自我修正，说明至少在数学/代码这类任务中，推理行为可以被 outcome reward 诱导出来。

这不意味着 SFT 不重要，而是说明 SFT 不是推理能力出现的唯一来源。SFT 更像是把能力约束成可读、稳定、符合人类偏好的形式；RL 则负责在答案空间中探索真正能提高正确率的行为。

GRPO 的直觉理解

PPO 往往需要一个 critic/value model 来估计状态价值。GRPO 的做法更直接：对同一道题让模型生成一组答案，谁在组里更好，谁就获得更高相对 advantage。这样做适合 LLM 推理任务，因为同一个 prompt 下可以很自然地采样多条解题路径。

这也解释了为什么它适合长 CoT：模型可以尝试不同搜索轨迹，最终由答案正确性决定哪种轨迹被强化。随着训练推进，能够更稳定找到答案的轨迹模式会被放大，例如检查约束、发现错误后回退、尝试替代方法等。

为什么不用 PRM？

过程奖励模型看起来很自然：如果能评价每一步，就能更细粒度地指导推理。但论文认为在大规模训练中 PRM 有三个现实问题：

通用推理里的“步骤”边界很难定义。
自动判断中间步骤正确性不稳定，人工标注又不可扩展。
一旦引入模型式奖励，就更容易被策略模型利用，形成 reward hacking。

因此 DeepSeek-R1 更偏好可验证任务上的最终答案奖励。PRM 可以用于 rerank 或辅助搜索，但在他们的大规模 RL 训练中，性价比不够高。

为什么 MCTS 没有成为主线？

MCTS 在围棋这类环境中成功，是因为状态、动作、胜负反馈都比较清楚。但 LLM token 生成的搜索空间巨大，分支定义困难，value model 训练也困难。论文尝试把答案拆成更小步骤，让模型生成搜索标签并用 value model 引导搜索，但放大训练规模后容易卡在局部最优，且 value model 质量限制整体改进。

这给我的启发是：LLM 推理的搜索不一定要显式做成树。R1 的路线更像是让模型在上下文里学会隐式搜索，用更多 token 表达试探、验证和回退。显式搜索仍然可能有用，但需要更好的状态表示、价值估计和工具反馈。

多阶段训练的意义

DeepSeek-R1 的 pipeline 不是简单堆技巧，而是在处理三个冲突目标：

探索性：让模型通过 RL 发现更强推理策略。
可读性：让输出符合人类可读格式，减少语言混杂。
通用性与安全性：让模型不仅会做数学和代码，也能写作、问答、遵循指令、控制风险。

纯 RL 对第一个目标有效，但对第二、第三个目标不够稳定；SFT 与偏好奖励则补足这些部分。最终 R1 的提升来自“先让模型学会强推理，再把能力整理成可用形态”。

蒸馏为什么有效？

小模型直接 RL 的难点在于模型容量不足时，长 CoT 可能变成重复、无效或噪声。强教师模型已经通过大规模 RL 找到了高质量推理轨迹，小模型用 SFT 学这些轨迹，相当于跳过昂贵探索阶段，直接学习被筛选过的行为分布。

但蒸馏也有上限：它主要继承教师模型已经发现的推理模式。如果目标是继续突破教师模型能力边界，仍然需要更强 base model、更可靠 verifier 和更大规模 RL。

实践要点

如果复现或借鉴这篇论文，我会优先关注：

选择足够强的 base model，小模型从零 RL 可能学不到有效长 CoT。
先找可验证任务，不要一开始就做开放写作类 RL。
优先构建可靠 verifier，而不是复杂但不稳的神经奖励模型。
监控输出长度、重复、语言混杂和 reward hacking。
对产品模型加入 SFT、通用数据、安全奖励和格式约束。
对小模型优先尝试 R1-style distillation，再考虑昂贵 RL。

阅读时间：约 4 小时
推荐指数：⭐⭐⭐⭐⭐
适合读者：大语言模型后训练、强化学习、推理模型、模型蒸馏方向研究者

核心启示：DeepSeek-R1 的关键不是某个单独技巧，而是把“可验证奖励驱动的探索”和“SFT/偏好对齐驱动的可用性”组合成完整训练系统。对可验证问题，RL 可以让模型自己发现强推理策略；对开放问题，可靠奖励仍是瓶颈。

快速判断这篇论文#

📋 论文概述#

🎯 研究动机#

🔬 主要方法#

核心思想#

GRPO：替代 PPO 的组相对策略优化#

DeepSeek-R1-Zero：不做 SFT，直接 RL#

DeepSeek-R1：把强推理能力做成可用模型#

蒸馏：把长 CoT 能力迁移到小模型#

📊 实验结果#

主要基准#

分阶段效果#

蒸馏模型表现#

💭 个人评价#

✅ 优点#

⚠️ 缺点#

💡 启发#

🔗 相关论文#

📝 详细笔记#

为什么 R1-Zero 重要？#

GRPO 的直觉理解#

为什么不用 PRM？#

为什么 MCTS 没有成为主线？#

多阶段训练的意义#

蒸馏为什么有效？#

实践要点#