📋 论文概述

DeepSeek-R1 是推理型大语言模型训练范式中的关键论文。它的核心问题不是再设计一个新的 Transformer 结构,而是回答一个更直接的问题:如果给基础模型足够多可验证的难题、可靠奖励和强化学习计算,模型能不能自己学出长链推理能力?

论文给出的答案是肯定的。作者先训练 DeepSeek-R1-Zero:从 DeepSeek-V3-Base 出发,不经过常规 SFT,直接用 GRPO 在数学、代码和 STEM 等可验证任务上做大规模强化学习。训练过程中,模型自发出现了更长的思考链、自我验证、反思、重新规划等行为。随后作者构建 DeepSeek-R1:在 R1-Zero 的基础上加入冷启动 SFT、语言一致性奖励、拒绝采样、通用指令数据和最终 RL 对齐,解决 R1-Zero 的可读性差、语言混杂和通用能力不足问题。

这篇论文的重要性在于:它把推理能力从“人类写出高质量 CoT 轨迹,再让模型模仿”推进到“用可验证奖励让模型探索自己的推理轨迹”。论文还展示了蒸馏路线:用 DeepSeek-R1 生成的 80 万条样本微调 Qwen/Llama 等开源模型,使小模型也获得很强的推理能力。

🎯 研究动机

  • CoT 与 SFT 的依赖问题:传统推理增强通常需要人工标注或人工风格的 reasoning traces,成本高、扩展性差,而且可能限制模型探索非人类式但有效的推理策略。
  • 复杂推理仍不足:LLM 在基础推理任务上已经有效,但数学竞赛、代码竞赛、STEM 难题等领域仍需要更强的多步搜索、验证和纠错能力。
  • 可验证任务提供了天然反馈:数学题、编程题、部分 STEM 题可以通过标准答案或测试用例判断最终结果,适合 outcome-based RL。
  • 推理能力需要可迁移:如果只训练一个超大模型,使用门槛仍然高;论文希望把强模型的推理轨迹蒸馏给更小的开源模型。

🔬 主要方法

核心思想

论文的核心思路可以概括为:

  1. 用可验证问题作为 RL 环境。
  2. 只对最终答案正确性和格式给奖励,尽量不规定中间推理内容。
  3. 允许模型通过长输出自行搜索、反思和修正。
  4. 用多阶段训练把“纯 RL 得到的推理能力”转化成“可读、稳定、通用、对齐”的产品级模型。
  5. 用强模型输出蒸馏小模型,使推理能力低成本扩散。

GRPO:替代 PPO 的组相对策略优化

DeepSeek-R1 系列使用 GRPO(Group Relative Policy Optimization)。它和 PPO 的直觉区别是:不训练额外的 value model,而是对同一个问题采样一组回答,用这一组回答的奖励均值和标准差来归一化每个回答的 advantage。

具体流程:

  1. 对一个问题采样多个候选回答。
  2. 对每个回答计算奖励。
  3. 用组内相对表现估计 advantage。
  4. 用带 clip 和 KL 正则的目标更新策略模型。

这样做的好处是训练流程更轻,少一个 value model,适合大规模 LLM RL。代价是奖励质量非常关键,一旦 verifier 不可靠,模型会更容易走向 reward hacking。

DeepSeek-R1-Zero:不做 SFT,直接 RL

R1-Zero 是论文最有研究价值的部分。它从 DeepSeek-V3-Base 开始,跳过传统 SFT,直接用 GRPO 在 reasoning prompts 上训练。

奖励主要由两部分组成:

  • 准确性奖励:最终答案能否匹配标准答案,或代码是否通过测试。
  • 格式奖励:模型是否按要求把思考过程和最终答案分开,例如使用 <think><answer> 结构。

关键点是:作者没有用神经网络式过程奖励模型去评价每一步推理是否正确,也没有要求模型模仿人类标注的推理轨迹。模型只被要求给出结构化输出,并通过最终结果拿到反馈。

训练结果很有启发:AIME 2024 的 pass@1 从初始约 15.6% 提升到 77.9%,配合 self-consistency 可到 86.7%。训练过程中,模型的平均输出长度增加,并自发出现反思、检查、尝试替代解法等行为。论文把这种突然增强的自我修正行为称为 “aha moment”。

DeepSeek-R1:把强推理能力做成可用模型

R1-Zero 虽然证明纯 RL 能激发推理能力,但也有明显问题:输出可读性差、中英混杂、对写作和开放问答等通用任务支持不足。因此 DeepSeek-R1 使用多阶段 pipeline:

  1. 冷启动 SFT
    收集少量高质量长 CoT 数据,让模型先具备更可读、对话化、语言一致的推理格式。

  2. 第一阶段 RL
    在 reasoning tasks 上继续用 GRPO 强化推理能力,同时加入语言一致性奖励,缓解 CoT 中的语言混杂。

  3. 拒绝采样 + SFT
    用中间模型生成候选推理轨迹,过滤和精炼后得到更多 reasoning 数据;同时混入 non-reasoning 数据,让模型保留写作、问答、指令遵循等通用能力。

  4. 第二阶段 RL
    对 reasoning 数据继续使用规则奖励;对通用数据使用 helpfulness / safety reward model 和格式奖励;同时加入语言奖励。这个阶段的目标不是只刷数学和代码,而是把推理能力、通用对齐、可读性和安全性放到同一个训练过程里平衡。

这个设计体现了论文的一个重要判断:RL 适合探索可验证任务中的推理轨迹,SFT 适合处理奖励难定义的开放任务;两者不是替代关系,而是互补关系。

蒸馏:把长 CoT 能力迁移到小模型

论文还训练了多个蒸馏模型:DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B 和 DeepSeek-R1-Distill-Llama-8B/70B。做法是用 DeepSeek-R1 生成约 80 万条样本,对开源基础模型做 SFT,不额外加入 RL 阶段。

一个重要发现是:对于较小模型,直接用强教师模型的推理输出做蒸馏,往往比从小模型自己开始做大规模 RL 更经济、更有效。论文中 DeepSeek-R1-Distill-Qwen-32B 在 AIME、MATH-500、GPQA、LiveCodeBench 等基准上明显强于 Qwen2.5-32B-Zero。

📊 实验结果

主要基准

DeepSeek-R1 在推理类任务上接近或达到当时最强模型水平:

任务DeepSeek-R1备注
AIME 202479.8% pass@1数学竞赛推理
MATH-50097.3% pass@1数学题集
GPQA Diamond71.5% pass@1研究生级科学问答
LiveCodeBench65.9% pass@1-CoT编程能力
Codeforcesrating 2029 / percentile 96.3竞赛编程
MMLU-Pro84.0% EM高难综合知识
ArenaHard92.3开放问答/偏好评测

分阶段效果

从 R1-Zero 到最终 R1,变化很清楚:

  • R1-Zero 的 reasoning benchmark 很强,但 IF-Eval、ArenaHard 等指令遵循/用户偏好指标偏弱。
  • 冷启动和后续 SFT 让输出更可读,但早期 Dev1 会牺牲部分纯 reasoning 性能。
  • 第二阶段 reasoning RL 重新提升数学、代码、STEM 能力。
  • 混入 non-reasoning 数据与最终 RL 后,AlpacaEval、ArenaHard、Aider-Polyglot 等通用和工程指标提升明显。

蒸馏模型表现

蒸馏结果说明“推理轨迹”本身可以成为高价值训练数据:

蒸馏模型AIME 2024 pass@1MATH-500GPQA DiamondLiveCodeBench
R1-Distill-Qwen-1.5B28.983.933.816.9
R1-Distill-Qwen-7B55.592.849.137.6
R1-Distill-Qwen-32B72.694.362.157.2
R1-Distill-Llama-70B70.094.565.257.5

即使 1.5B 级别模型也获得了明显数学推理提升;随着参数规模增大,蒸馏收益继续增强。

💭 个人评价

✅ 优点

  • 研究问题抓得准:不再只讨论 CoT prompt 或人工推理数据,而是直接验证“可验证奖励 + RL 是否能诱导推理能力”。
  • R1-Zero 的实验价值很高:跳过 SFT 让结论更干净,可以更清楚地观察 RL 本身带来的长 CoT、反思和自我验证。
  • 工程 pipeline 完整:论文没有停留在 demo,而是展示了如何把纯 RL 产物修正为可读、可用、对齐的 DeepSeek-R1。
  • 蒸馏路线实用:用强推理模型产出高质量轨迹,再训练小模型,这条路线对开源社区和低成本部署非常关键。
  • 负结果有价值:论文明确讨论 PRM 与 MCTS 在大规模训练中的困难,避免把所有推理增强方法都简单套到 LLM 上。

⚠️ 缺点

  • 强依赖可验证奖励:数学、代码、部分 STEM 很适合;写作、开放问答、复杂真实任务的奖励定义仍然困难。
  • 算力门槛很高:纯 RL 从基础模型激发推理能力需要足够强的 base checkpoint 和大规模 rollout,对普通研究团队不友好。
  • 过程可解释性仍有限:模型会输出长 CoT,但这些 CoT 不一定等同于真实内部机制;训练奖励也主要依赖最终结果。
  • 安全风险更复杂:推理能力增强后,越狱、危险规划、可执行攻击方案等风险也会增强。
  • 工具使用能力不足:论文承认 R1 不能原生利用搜索、计算器、编译器等工具;这限制了真实任务中的可靠性和效率。
  • token 效率问题明显:长推理会带来 overthinking,简单问题也可能消耗过多推理 token。

💡 启发

  • 推理模型的核心资产可能是 verifier:只要能构造可靠反馈,模型就能通过 RL 发现人类没有显式标注的策略。
  • SFT 和 RL 的边界更清晰:SFT 用来教格式、风格、通用能力;RL 用来在可验证任务上探索高收益策略。
  • 蒸馏是小模型推理能力的短期主线:对小模型来说,先学习强模型的推理数据,比自己从零大规模 RL 更划算。
  • 未来的突破点可能在工具增强 RL:如果把编译器、搜索、证明器、仿真器、实验反馈纳入 verifier,推理模型的任务范围会大很多。
  • 评测要关注 token 成本:只看准确率会高估长 CoT 的实用性,实际应用中还要比较延迟、费用和过度推理率。

🔗 相关论文

前置工作

  • Chain-of-Thought Prompting - 显式中间推理步骤的基础方法
  • Self-Consistency - 多条推理路径投票提升鲁棒性
  • PPO / RLHF - LLM 后训练与对齐的经典路线
  • DeepSeek-V3 - DeepSeek-R1 的基础模型来源

同方向工作

  • OpenAI o1 - 推理型模型的重要参照
  • QwQ-32B-Preview - 开源推理模型参照
  • Process Reward Model 相关工作 - 过程级奖励与 reranking
  • Tree of Thoughts / MCTS for LLM reasoning - 搜索式推理增强

后续关注

  • Tool-augmented reasoning RL
  • Verifier 设计与 reward hacking 防护
  • 小模型 reasoning distillation
  • 长 CoT 的可解释性与 token 效率

📝 详细笔记

为什么 R1-Zero 重要?

R1-Zero 的价值在于它把“推理能力来自人类示范”这个假设削弱了。模型没有先看人工长链推理样本,而是只在可验证任务上接受最终结果反馈。它仍然学出了长 CoT 和自我修正,说明至少在数学/代码这类任务中,推理行为可以被 outcome reward 诱导出来。

这不意味着 SFT 不重要,而是说明 SFT 不是推理能力出现的唯一来源。SFT 更像是把能力约束成可读、稳定、符合人类偏好的形式;RL 则负责在答案空间中探索真正能提高正确率的行为。

GRPO 的直觉理解

PPO 往往需要一个 critic/value model 来估计状态价值。GRPO 的做法更直接:对同一道题让模型生成一组答案,谁在组里更好,谁就获得更高相对 advantage。这样做适合 LLM 推理任务,因为同一个 prompt 下可以很自然地采样多条解题路径。

这也解释了为什么它适合长 CoT:模型可以尝试不同搜索轨迹,最终由答案正确性决定哪种轨迹被强化。随着训练推进,能够更稳定找到答案的轨迹模式会被放大,例如检查约束、发现错误后回退、尝试替代方法等。

为什么不用 PRM?

过程奖励模型看起来很自然:如果能评价每一步,就能更细粒度地指导推理。但论文认为在大规模训练中 PRM 有三个现实问题:

  1. 通用推理里的“步骤”边界很难定义。
  2. 自动判断中间步骤正确性不稳定,人工标注又不可扩展。
  3. 一旦引入模型式奖励,就更容易被策略模型利用,形成 reward hacking。

因此 DeepSeek-R1 更偏好可验证任务上的最终答案奖励。PRM 可以用于 rerank 或辅助搜索,但在他们的大规模 RL 训练中,性价比不够高。

为什么 MCTS 没有成为主线?

MCTS 在围棋这类环境中成功,是因为状态、动作、胜负反馈都比较清楚。但 LLM token 生成的搜索空间巨大,分支定义困难,value model 训练也困难。论文尝试把答案拆成更小步骤,让模型生成搜索标签并用 value model 引导搜索,但放大训练规模后容易卡在局部最优,且 value model 质量限制整体改进。

这给我的启发是:LLM 推理的搜索不一定要显式做成树。R1 的路线更像是让模型在上下文里学会隐式搜索,用更多 token 表达试探、验证和回退。显式搜索仍然可能有用,但需要更好的状态表示、价值估计和工具反馈。

多阶段训练的意义

DeepSeek-R1 的 pipeline 不是简单堆技巧,而是在处理三个冲突目标:

  • 探索性:让模型通过 RL 发现更强推理策略。
  • 可读性:让输出符合人类可读格式,减少语言混杂。
  • 通用性与安全性:让模型不仅会做数学和代码,也能写作、问答、遵循指令、控制风险。

纯 RL 对第一个目标有效,但对第二、第三个目标不够稳定;SFT 与偏好奖励则补足这些部分。最终 R1 的提升来自“先让模型学会强推理,再把能力整理成可用形态”。

蒸馏为什么有效?

小模型直接 RL 的难点在于模型容量不足时,长 CoT 可能变成重复、无效或噪声。强教师模型已经通过大规模 RL 找到了高质量推理轨迹,小模型用 SFT 学这些轨迹,相当于跳过昂贵探索阶段,直接学习被筛选过的行为分布。

但蒸馏也有上限:它主要继承教师模型已经发现的推理模式。如果目标是继续突破教师模型能力边界,仍然需要更强 base model、更可靠 verifier 和更大规模 RL。

实践要点

如果复现或借鉴这篇论文,我会优先关注:

  1. 选择足够强的 base model,小模型从零 RL 可能学不到有效长 CoT。
  2. 先找可验证任务,不要一开始就做开放写作类 RL。
  3. 优先构建可靠 verifier,而不是复杂但不稳的神经奖励模型。
  4. 监控输出长度、重复、语言混杂和 reward hacking。
  5. 对产品模型加入 SFT、通用数据、安全奖励和格式约束。
  6. 对小模型优先尝试 R1-style distillation,再考虑昂贵 RL。

阅读时间:约 4 小时
推荐指数:⭐⭐⭐⭐⭐
适合读者:大语言模型后训练、强化学习、推理模型、模型蒸馏方向研究者

核心启示:DeepSeek-R1 的关键不是某个单独技巧,而是把“可验证奖励驱动的探索”和“SFT/偏好对齐驱动的可用性”组合成完整训练系统。对可验证问题,RL 可以让模型自己发现强推理策略;对开放问题,可靠奖励仍是瓶颈。