自然语言处理

快速切换分类

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

自然语言处理·2025· Nature 2025· 已完成· 5/5

DeepSeek-AI, Daya Guo, Dejian Yang 等

提出 DeepSeek-R1-Zero 与 DeepSeek-R1，展示大语言模型可以通过可验证任务上的大规模强化学习自发形成长链推理、反思与验证能力，并进一步通过多阶段训练和蒸馏把强推理能力迁移到更小模型。

自然语言处理·2017· NeurIPS 2017· 已完成· 5/5

Ashish Vaswani, Noam Shazeer, Niki Parmar 等

提出了完全基于注意力机制的 Transformer 架构，摒弃了循环和卷积结构，在机器翻译任务上取得了 SOTA 性能，成为现代 NLP 的基石。