Papers

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

强化学习·2026· arXiv 2026· 已完成· 4/5

Ran Xu, Tianci Liu, Zihan Dong 等

这篇论文提出 Rubric-ARM：把 rubric 生成从静态 prompt 或独立 SFT 模块，改写成一个会影响 judge 正确性的潜变量动作，并用交替强化学习联合优化 rubric generator 和 judge。核心 insight 是：在非可验证任务里，高质量 reward 不是一个单独的标量打分器，而是“评价标准”和“基于标准的判断”共同演化出来的系统。实验显示 Rubric-ARM 在多个 reward modeling benchmark 上优于 Rubric-RM 等白盒基线，并能作为 DPO/GRPO 的奖励信号提升下游策略模型。

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

计算机视觉·2025· ICLR 2026· 已完成· 5/5

Long Xing, Xiaoyi Dong, Yuhang Zang 等

CapRL 尝试把 RLVR 从有标准答案的任务扩展到开放式 image captioning。它把 caption 质量重新定义成“是否足以支撑一个不看图的 LLM 仅凭 caption 回答图像相关多选题”，并据此设计了解耦两阶段 reward。结果显示，CapRL-3B 在 Prism 评价下逼近 Qwen2.5-VL-72B，还能生成 CapRL-5M 高质量 caption 数据，在 12 个预训练 benchmark 上持续优于 ShareGPT4V-1M 和 DenseFusion-1M。

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

计算机视觉·2026· arXiv 2026· 已完成· 5/5

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan 等

RubiCap 研究如何把强化学习从有明确 verifier 的任务扩展到开放式 dense image captioning。作者用五个强 VLM 组成 committee 生成候选描述，再让 LLM 针对当前学生模型的失败点合成样本级 rubric，并用 rubric-guided GRPO 优化 captioner。结果显示 RubiCap 在 CapArena 上显著优于 SFT、ROUGE 奖励和 Likert judge 奖励，还能减轻灾难性遗忘，并在 CaptionQA 上以更短描述达到更高信息密度。

Reinforcement Learning with Rubric Anchors

强化学习·2025· arXiv 2025· 已完成· 5/5

Zenan Huang, Yihong Zhuang, Guoshan Lu 等

论文提出 Rubicon，用 rubric anchors 把强化学习从数学、代码这类可验证任务扩展到创意写作、情感表达和人文学科等开放任务。作者构建了一个包含 10,000+ rubrics 的大规模 reward system，并通过两阶段 RL、central-quantile 数据筛选、reward hacking 防御 rubric 和 stage-wise 训练，让 Qwen3-30B-A3B 仅用 5K 训练样本就在开放任务上平均提升 5.2%，同时基本保持通用与推理能力。

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

多模态学习·2025· ICLR 2026· 已完成· 5/5

Wenxuan Huang, Bohan Jia, Zijie Zhai 等

Vision-R1 研究如何把 DeepSeek-R1 式强化学习迁移到多模态大模型上。作者先通过 modality bridging 构造 200K 的多模态 CoT 冷启动数据，再用 PTST 配合 GRPO 和硬格式结果奖励逐步放开推理长度，最终让 7B 模型在 MathVista 上达到 73.5%，逼近 OpenAI o1 级别的多模态数学推理表现。

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

强化学习·2025· arXiv 2025· 已完成· 4/5

Anisha Gunjal, Anthony Wang, Elaine Lau 等

提出 Rubrics as Rewards（RaR），把按题目定制的 rubric/checklist 直接变成 GRPO 的奖励信号，使强化学习从数学、代码这类可验证任务扩展到医疗与科学等没有单一标准答案的真实推理场景，并在 HealthBench 与 GPQA-Diamond 上显著优于直接 Likert 打分奖励。

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

自然语言处理·2025· Nature 2025· 已完成· 5/5

DeepSeek-AI, Daya Guo, Dejian Yang 等

提出 DeepSeek-R1-Zero 与 DeepSeek-R1，展示大语言模型可以通过可验证任务上的大规模强化学习自发形成长链推理、反思与验证能力，并进一步通过多阶段训练和蒸馏把强推理能力迁移到更小模型。

Deep Residual Learning for Image Recognition

计算机视觉·2016· CVPR 2016· 已完成· 5/5

Kaiming He, Xiangyu Zhang, Shaoqing Ren 等

提出残差学习框架，通过引入跳跃连接解决深度网络退化问题，使得训练超深网络（152 层）成为可能，赢得 ImageNet 2015 冠军。

Attention Is All You Need

自然语言处理·2017· NeurIPS 2017· 已完成· 5/5

Ashish Vaswani, Noam Shazeer, Niki Parmar 等

提出了完全基于注意力机制的 Transformer 架构，摒弃了循环和卷积结构，在机器翻译任务上取得了 SOTA 性能，成为现代 NLP 的基石。