📋 论文概述
这篇论文想解决的是一个看起来很简单、但其实一直没被真正解决的问题:怎么训练一个会写“高质量图像描述”的模型,而不是只会复述 teacher 风格或记住 ground-truth 答案的 caption model。
Image captioning 是视觉和语言之间最基础的桥梁任务。它的价值不只是“给图片配一句话”,而是会直接影响:
- LVLM 预训练里的模态对齐质量;
- 文档、图表、信息图等细粒度视觉理解;
- 下游 VQA、OCR、视觉推理的上游表示质量。
但当前最强的 caption model 大多还是靠 SFT(Supervised Fine-Tuning)。SFT 的问题也很明显:
- 数据昂贵,往往依赖人工或 proprietary model 标注;
- 每张图通常只有单一参考描述;
- 模型容易记住“应该怎么写这句话”,而不是学会“应该抓住图里的哪些关键信息”。
所以作者提出了 CapRL(Captioning Reinforcement Learning)。
它的核心想法很巧:
与其直接问“caption 写得好不好”,不如问“如果一个只看文字、不看图片的 LLM 只拿到这段 caption,它还能不能答对和这张图有关的问题?”
也就是说,CapRL 不是把 caption 质量定义成“像不像人工标注”,而是定义成 utility:
- 高质量 caption 应该足够准确、足够密集;
- 以至于一个纯文本 LLM 仅凭 caption 就能回答关于图像的 MCQ。
这就把一个原本主观的任务,重新转成了一个可以做 RLVR 的客观代理任务。
🎯 研究背景
这篇论文站在两个方向的交叉点:
- Image Captioning / Dense Captioning:需要模型输出完整、准确、信息密集的描述,而不是一句泛化总结。
- RLVR(Reinforcement Learning with Verifiable Rewards):在数学、代码、选择题等任务中,RLVR 已经证明比 SFT 更能激发探索和泛化。
问题在于,captioning 恰好卡在这两者中间:
- 它很适合做“探索式优化”,因为一张图往往有很多种合理描述;
- 但它又不像数学题那样有标准答案 verifier。
作者在引言里对比了几种已有路线:
Reference-based reward:比如 BLEU、ROUGE
这类指标只看字面重叠,长 caption 和复杂 caption 很容易被低估。Reward model / LVLM-as-a-judge
这类方法更灵活,但非常容易 reward hacking。模型可能学会写得特别短,或者写得特别冗长,只是为了讨好 judge 的偏好。SFT on synthetic captions
这类方法虽然强,但依然是“模仿固定答案”,不是真正优化“这段描述有多有用”。
于是论文真正的出发点是:如果我们不能直接评价 caption 的“美感”或“唯一正确性”,那能不能评价它的“信息可用性”?
⚠️ 问题与挑战
论文要解决的问题是:如何为开放式 image captioning 设计一个足够客观、足够稳定、又不容易被模型 exploit 的 reward。
这个问题之所以难,不是因为 captioning“主观”这么简单,而是因为有几层因果矛盾:
1. 因为一张图有很多合理描述,所以没有单一 ground truth
同一张图可以有:
- 更偏对象枚举的描述;
- 更偏空间关系的描述;
- 更偏叙述化总结的描述;
- 更偏文档/OCR 信息提取的描述。
因此你很难说某一条 caption 是唯一正确答案。
如果还是用单一 reference 做监督,模型更容易学会模仿 phrasing,而不是提高视觉感知。
2. 因为整体打分太粗,所以 reward model 很容易被 exploit
作者展示了两种典型失败:
- UnifiedReward-as-Judge 倾向偏好短 caption,导致训练后模型输出越来越短,最后甚至塌到只剩下类似
:description这样的退化形式; - Qwen2.5VL-as-Judge 则偏好冗长 caption,导致模型开始生成和图像无关的长篇大论。
这说明:因为 judge 有内在偏差,所以如果 reward 只是一个 holistic 分数,模型就会优化 judge 的偏好,而不是优化 caption 质量本身。
3. 因为 caption 的价值在于“能不能支撑后续理解”,所以 reward 应该围绕 downstream utility 而不是表面文本形式
一段 caption 只要做到:
- 把图中关键对象说出来;
- 把关系、属性、文字信息说出来;
- 不产生 hallucination;
那么一个不看图的 LLM 就应该能基于这段描述回答问题。
反过来,如果 LLM 不能靠它答题,说明这段 caption 可能漏了关键信息。
所以论文真正难的地方,在于:
怎么把 caption 的“可用性”变成一个可验证、可重复、低方差的 reward。
4. 因为 QA 本身也可能泄露信息,所以 reward 数据必须严格过滤
如果问题本身就可以不看图直接答对,或者问题能靠世界知识瞎猜出来,那 reward 就失真了。
因此作者必须额外做 QA curation,确保:
- 带图能答;
- 不带图答不出来;
只有这样,caption reward 才真正逼着模型提供视觉信息,而不是利用问题本身的提示。
🔍 核心发现 Finding
作者明确声称
作者的关键发现是:caption 的质量可以通过它对“无图 LLM 回答图像问题”的支撑能力来客观衡量,这种 utility-based reward 可以把 RLVR 引入 image captioning。
我的理解
我认为这篇论文真正有价值的 Finding 不是“把 caption 转成 QA 任务”这个技巧本身,而是它背后的视角变化:
caption 的本质不是一段“漂亮的文字”,而是一种压缩后的视觉信息接口。
这和很多传统 caption 工作的默认设定不同。
传统设定通常隐含地认为:
- caption 越像人工标注越好;
- 文本越自然越好;
- 和参考答案越接近越好。
CapRL 则换了一个完全不同的角度:
- caption 的真正价值,不在于像不像某条 reference;
- 而在于它有没有把图像里的关键可回答信息保留下来。
这为什么重要?因为它把一个主观任务变成了一个功能性任务:
- 以前:caption 是“语言输出”;
- 现在:caption 是“给下游模型用的视觉信息载体”。
一旦这样看问题,reward 就自然可以重新定义成:
- 如果 caption 让文本 LLM 可靠答对问题,它就是好 caption;
- 如果 caption 不能支持答题,它再优雅也没用。
这正是 CapRL 能解决前面挑战的原因:
它不是在评审 caption 文风,而是在评审 caption 是否真正携带了图像知识。
举个非常直观的例子:
- 一张图里如果有“红色飞盘”和“草地上的孩子”;
- 参考答案可能只写了“孩子在玩耍”;
- 但一个更有用的 caption 会明确说出“一个孩子在草地上玩红色飞盘”。
这种 caption 未必更像某条 reference,但它更能支撑问题 “What color is the frisbee?”。
CapRL 的 insight 就是:这种“是否对后续任务有用”的属性,比“是否像参考答案”更适合当 reward。
🔬 方法
整体框架
CapRL 是一个 decoupled two-stage pipeline:
- Stage 1:LVLM 生成 caption;
- Stage 2:把 caption 和与该图像相关的 MCQ 一起交给一个不看图的 LLM,由其答题准确率作为 reward。
这套设计的关键,是把“视觉感知”和“文本推理/验证”拆开了。
Reward 设计
给定图像和指令,policy model 先生成一组 candidate captions。
然后对每条 caption:
- 抽取与该图像绑定的一组 MCQ;
- 把 caption 和 MCQ 交给一个纯文本 LLM;
- 用 exact match 判断答案是否正确;
- 对多个问题、多个采样轮次求平均,得到最终 reward。
作者这样做有几个好处:
- 可验证:MCQ 有标准答案,exact match 很清晰;
- 稳定:多轮采样和选项打乱,减少文本 LLM 的选项偏差;
- 尊重 caption 自由度:reward 不要求某种固定格式,也不要求中间 CoT。
论文里默认用 Qwen2.5-3B-Instruct 做 answerer,这样 reward 计算成本也比较低。
QA Curation
为了保证 reward 真有意义,作者做了一个三阶段 QA curation pipeline:
- 收集多样化图像:自然图像、图表、文档等;
- 让 Qwen2.5-VL-72B 生成每张图的多个 QA;
- 做严格 QA filtering:
- 带图能答对;
- 不带图时答不出来;
在官方 README 里,作者还给了更具体的工程阈值:
- 每张图先生成
5个 QA; - 过滤时保留
visual acc > 0.75且text acc < 0.25的 QA。
这一步特别关键,因为它让 reward 真正来源于“caption 是否补足视觉信息”,而不是来源于问题文字本身。
最终,论文保留了大约 75K 张图及其对应 QA,用于 GRPO 训练。
RL 训练
训练算法使用 GRPO。
流程上,CapRL 并不复杂:
- 输入图像;
- 采样多条 caption;
- 对每条 caption 计算 QA-based reward;
- 组内归一化,得到 advantage;
- 加上 KL penalty,更新 policy。
重要的是,CapRL 不需要像 DeepSeek-R1 那样设计格式化思考过程奖励。
因为 reward 是直接从 caption 本身算出来的,不依赖中间 reasoning 格式。
CapRL-5M 数据集
训练出 CapRL-3B 后,作者反过来把它当作 caption annotator,去标注 5M 张图像,构造 CapRL-5M 数据集。
这些图像来源包括:
- ShareGPT4V-1M
- DenseFusion-1M
- 以及作者自行收集并过滤的 3M web images
然后再用这些 captions 去做多模态预训练,验证 “更好的 captioner 能不能真正造出更好的预训练数据”。
这一步很有意思,因为它让 CapRL 不只是一个后训练 captioner,而是变成了一个 data engine。
📊 实验与结论
主结果一:CapRL-3B 在 Prism 评价下逼近 Qwen2.5-VL-72B
在 Prism Framework 下,作者直接比较 caption 质量对后续 Decoupled VQA 的支撑能力。
| Caption Model | Average |
|---|---|
| Qwen2.5-VL-3B | 39.9 |
| Qwen2.5-VL-7B | 44.9 |
| Qwen2.5-VL-72B | 48.3 |
| UnifiedRW-as-Judge-3B | 38.4 |
| Qwen2.5VL-as-Judge-3B | 42.5 |
| CapRL-3B | 48.3 |
也就是说,CapRL-3B 平均分已经追平 Qwen2.5-VL-72B,而且相对 3B baseline 平均提升 8.4 个点。
更细地看:
- ChartQA:
27.1 -> 39.9 - InfoVQA:
40.2 -> 64.8 - MMStar:
46.4 -> 55.0
这说明 CapRL 的提升不是只体现在一种图片类型上,而是横跨:
- 图表;
- 信息图;
- 文档;
- 自然图像;
都有明显收益。
主结果二:CapRL 比现有的 LVLM-as-a-Judge reward 更稳,也更难被 hack
这是论文里非常关键的一组对比。
作者发现:
UnifiedReward-2.0-qwen-3b由于训练时见过太多短 caption,会偏好短输出;- 训练过程中,policy caption 会越来越短,最后甚至崩成退化输出;
- 而
Qwen2.5-VL-3B-as-judge又会反向偏好冗长输出,导致模型生成大量无关内容来讨好 judge。
CapRL 则绕开了这个问题。
它不再问“judge 喜不喜欢这段 caption”,而是问“caption 是否真的让文本 LLM 答对问题”。
所以作者的结论很明确:
LVLM-as-a-Judge reward 本质上不可靠,而 utility-based QA reward 更接近真正客观的 caption 质量。
主结果三:用 CapRL-annotated captions 预训练,12 个 benchmark 全面优于现有 caption 数据集
在预训练设置里,作者比较了:
- Vanilla
- ShareGPT4V-1M
- DenseFusion-1M
- CapRL-1M
- CapRL-5M
在 Qwen2.5-3B + Qwen2.5-ViT 设定下:
- Vanilla 平均
55.5 - ShareGPT4V-1M 平均
56.7 - DenseFusion-1M 平均
57.1 - CapRL-1M 平均
59.7 - CapRL-5M 平均
62.0
而且在一些文档/图表 benchmark 上收益很明显:
- InfoVQA:
49.4 -> 61.5(相对 DenseFusion-1M) - DocVQA:
84.6 -> 90.0 - ChartQA:
74.4 -> 80.5
作者还指出,在 natural image benchmark 上也有提升:
- MMStar 比 ShareGPT4V-1M 高
+1.6 - MMBench 比 ShareGPT4V-1M 高
+1.8
这说明 CapRL 造出来的数据,不只是对文档和图表有用,对一般视觉理解也有帮助。
主结果四:CapRL 的优势主要来自 caption 质量,而不是图像来源运气更好
这是一个很重要的控制实验。
作者把图像集合固定住,只替换 caption 来源,比较:
- ShareGPT4V-1M vs CapRL-ShareGPT4V-1M
- DenseFusion-1M vs CapRL-DenseFusion-1M
结果显示,在相同图像下:
- CapRL 标注后的版本平均还能再赢 2%+
这直接支持了作者的核心论点:
CapRL 的优势不是来自挑了更好的图片,而是来自它确实生成了更高质量、更有用的 captions。
主结果五:CapRL 有明显的 scaling trend,而且只需要稀疏 QA 监督
论文还做了两组非常实用的 ablation。
1. QA 数量
在只用 20k 图训练时:
- 1QA: 平均
48.0 - 2QA: 平均
48.5 - 3QA: 平均
48.5
也就是说,哪怕每张图只有 1 个 QA,性能也已经比 baseline 高很多,只比 2QA 低 0.5。
这说明 CapRL 的 supervision 非常稀疏但仍然高效。
2. Sampling rounds
N=1:47.3N=2:47.6N=4:48.4N=8:48.3
作者的解释是:
N=1时,选项顺序偏差太大,reward 噪声高;- 提到
N=4后已经接近饱和; - 再继续加采样,收益很有限。
这说明 CapRL 在工程上也比较友好:
不需要非常重的多轮问答,就能把 reward 做得足够稳定。
主结果六:CapRL 训练出来的 captioner 还有很强的跨域泛化
作者做了一个我觉得很有意思的实验:
- 只用 document/chart 类图像训练;
- 或者只用 natural image 训练;
结果两者都能在 out-of-domain benchmark 上明显超过 baseline。
这意味着 CapRL 学到的不是“某个领域固定模板”,而是更通用的 caption quality 提升方式。
结论
这篇论文最后说明了三件事:
- Image captioning 虽然是开放任务,但只要把质量定义成“是否支持后续问答”,它就能被重新转写为 RLVR 问题。
- 比起参考答案相似度或 LVLM judge,总体 utility-based reward 更客观、更稳。
- 一个更强的 captioner 不只是后训练更强,还能反过来生成更好的预训练数据,形成正向循环。
如果用一句更口语的话总结:
CapRL 的关键不是判断“这段 caption 像不像好答案”,而是判断“这段 caption 有没有真正把图像信息留下来”。
🧠 关键术语
- RLVR(带可验证奖励的强化学习):依靠可自动验证的奖励信号训练模型。例子:数学题答对得分、代码通过测试得分。
- Utility-based Reward(基于效用的奖励):不看 caption 是否像参考答案,而看它是否有助于完成下游任务。例子:只看 caption,文本 LLM 还能不能答对图像相关问题。
- Decoupled Two-Stage Pipeline(解耦两阶段流程):先生成 caption,再用 caption 支撑问答并计算 reward。例子:Stage 1 看图写描述,Stage 2 不看图只看描述答题。
- Prism Framework:把 caption evaluation 转成 decoupled VQA 的评测框架。例子:如果 caption 足够完整,LLM 就能只靠 caption 回答 ChartQA / InfoVQA / MMMU 里的问题。
- QA Curation(问答筛选):过滤掉不需要图像就能回答的问题,确保 reward 真的来自视觉信息。例子:保留
visual acc > 0.75且text acc < 0.25的 QA。 - Catastrophic Forgetting(灾难性遗忘):微调后模型丢掉原有能力。例子:SFT 让 caption 更像 teacher,但文档理解和 OCR 能力反而下降。
- Reward Hacking(奖励黑客):模型学会讨好 reward,而不是真提升能力。例子:为了讨好短 caption judge,只输出极短模板;或为了讨好 verbose judge,写一堆与图像无关的话。
- CapRL-5M Dataset:用 CapRL-3B 重标注 5M 图像得到的大规模 caption 预训练数据。例子:在 ShareGPT4V-1M、DenseFusion-1M 和 3M web images 上自动生成更高质量描述。
💭 个人评价
✅ 优点
- 问题抓得非常准:它不是再做一个更会模仿 teacher 的 captioner,而是直接定义了 captioning 的新优化目标。
- reward 设计很聪明:把主观 caption 评价绕到“是否支持答题”的客观代理任务上,既稳定又可扩展。
- 实验链条完整:既验证 caption 质量,又验证数据集价值,还做了 scaling、稀疏监督和 reward 设计对比。
- 产业价值高:CapRL-3B 这种轻量模型就能造出比现有 caption 数据更好的预训练数据,成本收益比很高。
⚠️ 局限
- reward 仍然是代理目标:能答对 MCQ 不等于 caption 在所有用途上都最优,比如美感、叙事性、风格控制。
- QA 质量仍然是系统上限:如果问答生成和过滤做得不好,reward 也会偏。
- 依赖额外问答流程:相比直接 lexical reward,训练链条更长、更复杂。
- 对极长、非常开放的主观 caption 任务是否依然稳健,还需要更多验证。
💡 启发
- 对开放任务做 RL,不一定要直接评价“答案本身好不好”,可以转而评价“它对下游任务有没有用”。
- 很多看似主观的视觉语言任务,也许都能通过“任务化代理”变成 RLVR。
- 这篇论文也提示一个更普遍的方向:高质量数据生成器本身可以通过 RL 训练出来,而不一定必须依赖最大的 proprietary model。
🔗 相关论文
- ShareGPT4V
- DenseFusion
- Prism Framework
- RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning
- DeepSeek-R1 / RLVR 在数学与代码任务上的工作
阅读时间:约 3 小时
推荐指数:⭐⭐⭐⭐⭐
适合读者:计算机视觉、视觉语言模型、image captioning、RL 后训练、多模态预训练数据构建方向研究者
一句话总结:CapRL 的真正贡献不是“把 captioning 也拿来做 RL”,而是把 caption 的价值重新定义为“是否足够有用,能让纯文本 LLM 仅凭 caption 回答图像问题”,从而把一个开放主观任务转成了可验证、可扩展、还能反向造数据的 RL 训练问题。