DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
提出 DeepSeek-R1-Zero 与 DeepSeek-R1,展示大语言模型可以通过可验证任务上的大规模强化学习自发形成长链推理、反思与验证能力,并进一步通过多阶段训练和蒸馏把强推理能力迁移到更小模型。
提出 DeepSeek-R1-Zero 与 DeepSeek-R1,展示大语言模型可以通过可验证任务上的大规模强化学习自发形成长链推理、反思与验证能力,并进一步通过多阶段训练和蒸馏把强推理能力迁移到更小模型。
提出了完全基于注意力机制的 Transformer 架构,摒弃了循环和卷积结构,在机器翻译任务上取得了 SOTA 性能,成为现代 NLP 的基石。