快速切换分类

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

CapRL 尝试把 RLVR 从有标准答案的任务扩展到开放式 image captioning。它把 caption 质量重新定义成“是否足以支撑一个不看图的 LLM 仅凭 caption 回答图像相关多选题”,并据此设计了解耦两阶段 reward。结果显示,CapRL-3B 在 Prism 评价下逼近 Qwen2.5-VL-72B,还能生成 CapRL-5M 高质量 caption 数据,在 12 个预训练 benchmark 上持续优于 ShareGPT4V-1M 和 DenseFusion-1M。

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

RubiCap 研究如何把强化学习从有明确 verifier 的任务扩展到开放式 dense image captioning。作者用五个强 VLM 组成 committee 生成候选描述,再让 LLM 针对当前学生模型的失败点合成样本级 rubric,并用 rubric-guided GRPO 优化 captioner。结果显示 RubiCap 在 CapArena 上显著优于 SFT、ROUGE 奖励和 Likert judge 奖励,还能减轻灾难性遗忘,并在 CaptionQA 上以更短描述达到更高信息密度。

Deep Residual Learning for Image Recognition

提出残差学习框架,通过引入跳跃连接解决深度网络退化问题,使得训练超深网络(152 层)成为可能,赢得 ImageNet 2015 冠军。