强化学习 on Awen's Paper Libarary

强化学习 on Awen's Paper Libararyhttps://a23wen.github.io/paper-libarary/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/Recent content in 强化学习 on Awen's Paper LibararyHugozh-cnThu, 23 Apr 2026 17:15:59 +0800Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Traininghttps://a23wen.github.io/paper-libarary/papers/rubric-arm/Thu, 23 Apr 2026 17:13:35 +0800https://a23wen.github.io/paper-libarary/papers/rubric-arm/这篇论文提出 Rubric-ARM：把 rubric 生成从静态 prompt 或独立 SFT 模块，改写成一个会影响 judge 正确性的潜变量动作，并用交替强化学习联合优化 rubric generator 和 judge。核心 insight 是：在非可验证任务里，高质量 reward 不是一个单独的标量打分器，而是“评价标准”和“基于标准的判断”共同演化出来的系统。实验显示 Rubric-ARM 在多个 reward modeling benchmark 上优于 Rubric-RM 等白盒基线，并能作为 DPO/GRPO 的奖励信号提升下游策略模型。Reinforcement Learning with Rubric Anchorshttps://a23wen.github.io/paper-libarary/papers/reinforcement-learning-with-rubric-anchors/Wed, 15 Apr 2026 14:22:50 +0800https://a23wen.github.io/paper-libarary/papers/reinforcement-learning-with-rubric-anchors/论文提出 Rubicon，用 rubric anchors 把强化学习从数学、代码这类可验证任务扩展到创意写作、情感表达和人文学科等开放任务。作者构建了一个包含 10,000+ rubrics 的大规模 reward system，并通过两阶段 RL、central-quantile 数据筛选、reward hacking 防御 rubric 和 stage-wise 训练，让 Qwen3-30B-A3B 仅用 5K 训练样本就在开放任务上平均提升 5.2%，同时基本保持通用与推理能力。Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domainshttps://a23wen.github.io/paper-libarary/papers/rubrics-as-rewards/Sat, 11 Apr 2026 13:35:18 +0800https://a23wen.github.io/paper-libarary/papers/rubrics-as-rewards/提出 Rubrics as Rewards（RaR），把按题目定制的 rubric/checklist 直接变成 GRPO 的奖励信号，使强化学习从数学、代码这类可验证任务扩展到医疗与科学等没有单一标准答案的真实推理场景，并在 HealthBench 与 GPQA-Diamond 上显著优于直接 Likert 打分奖励。