📋 论文概述
这篇论文讨论的不是“怎么把视觉模型做得更会看图”,而是一个更难的问题:怎么让多模态大模型真的学会像 R1 那样推理。
文本领域里,DeepSeek-R1-Zero 这条线已经证明:只要奖励设计得合适,纯强化学习可以诱发长链推理、自我检查、反思和纠错。但一到多模态场景,事情立刻变难。因为图像里的关键信息不像文本那样已经被离散化,模型需要先从图像里抓住几何关系、图表数值或空间结构,才有机会进入“推理”阶段。于是作者问了一个很直接的问题:
如果把 R1 式强化学习直接搬到 MLLM 上,会发生什么?
答案是:不够。直接 RL 激不出足够强的视觉推理。
所以作者提出 Vision-R1:先构造一个高质量多模态 CoT 冷启动数据集,让模型先学会“怎么把图像理解和文字推理接起来”;然后再用强化学习精炼推理过程。但作者很快又发现,只是“先冷启动再 RL”还不够,因为模型会掉进一个新的坑:overthinking optimization problem。也就是推理链越长,不一定越好,训练反而可能把模型推向更长但更差的思考过程。
Vision-R1 真正的新意,就在于作者不是简单堆“更多 CoT”或“更长推理链”,而是提出 PTST(Progressive Thinking Suppression Training):先压短、再放长,逐步放开 reasoning length,让模型先把“正确思考方式”学稳,再学更复杂的长程推理。
🎯 研究背景
这篇工作位于三个研究方向的交叉点:
- 多模态大语言模型(MLLM / MLLM reasoning):代表工作如 LLaVA、Qwen2.5-VL,这类模型已经很会做图像问答和描述,但遇到需要多步推理的数学、图表、几何任务时仍然明显掉队。
- R1-style reasoning RL:DeepSeek-R1 说明语言模型可以通过冷启动 + 强化学习形成反思、质疑和验证式推理,但这个结论主要建立在纯文本任务上。
- 多模态数学推理:MathVista、MathVerse、MM-Math、DynaMath 等 benchmark 把“看懂图”和“解题”绑在一起,是测试视觉推理最直接的场景。
简化地说,之前大家已经知道两件事:
- 文本模型能通过 RL 学出很强的 reasoning。
- 视觉语言模型能看图,但还不太会深度 reasoning。
这篇论文关心的是第三件事:这两件事能不能真正合起来?
⚠️ 问题与挑战
论文要解决的问题是:如何有效激活多模态大模型的复杂推理能力,而不是只让它更会描述图像或套模板输出 CoT。
这个问题之所以难,不是因为“视觉任务更复杂”这么笼统,而是因为有几层因果上的障碍:
1. 因为视觉信息没有天然的语言化表示,所以 RL 很难直接作用在“正确推理”上
在文本数学题里,问题本身已经是结构化语言;但在多模态数学题里,很多关键条件藏在图里。比如:
- 一个几何题的关键可能是角度标记的位置;
- 一个统计题的关键可能是柱状图的高度关系;
- 一个表格题的关键可能是某列的极值。
如果模型连这些视觉条件都没稳定抽出来,后面的 reasoning 再长也只是“对着错误前提瞎想”。
2. 因为高质量多模态 reasoning 数据稀缺,所以直接 RL 很难触发 DeepSeek-R1 式的“aha moment”
作者明确指出,直接把 RL 套在 MLLM 上,模型并不会自然学出像文本 R1 那样明显的 questioning、reflection 和 self-correction。原因在于:没有足够多高质量的多模态 reasoning 轨迹作支撑,搜索空间太大,优化太不稳定。
3. 因为冷启动后的模型容易走向“更长但不更对”的推理,所以单纯延长 CoT 反而会恶化训练
这是论文里最关键也最有意思的挑战。作者观察到:
- 冷启动模型 Vision-R1-CI 已经会写长 CoT;
- 但继续 RL 时,推理长度变长,性能却下降;
- 模型容易把“写得更长”误当成“推理得更好”。
也就是说,因为长推理链给了模型更多输出空间,所以它很容易把算力花在冗长解释上,而不是花在更准确的中间思考上。
这就是论文说的 overthinking optimization problem。
4. 因为多模态推理的奖励信号更脆弱,所以奖励设计必须足够“硬”
如果奖励只偏向表面格式,模型会学会写得像 reasoning;如果奖励太软,模型会 reward hack;如果奖励完全只看最终答案,又会丢掉推理结构训练的稳定性。作者最后采用的是 hard formatting result reward function(HFRRF),本质上是把“答对”和“输出格式合格”一起纳入一个比较硬的奖励约束。
🔍 核心发现 Finding
作者明确声称
作者的发现可以概括为两点:
- 直接对 MLLM 做 RL,不足以有效激发强推理能力。
- 高质量冷启动数据 + 渐进式抑制/释放推理长度的 RL 策略,可以显著提升多模态推理能力。
我的理解
我认为这篇论文最重要的 Finding 不是“又做了一个多模态 R1”,而是下面这个更深的判断:
对多模态模型来说,问题不只是“要不要做长推理”,而是“什么时候应该压短推理,什么时候才应该放长推理”。
这和很多直觉相反。很多人看到 R1 类工作后,第一反应会是:
- 只要让模型想得更久;
- 只要让 CoT 更长;
- 只要让 RL 多跑一点;
推理能力就会自然上来。
这篇论文其实在说:不对。
作者的关键 insight 是:
在多模态推理里,模型先要学会“用对的思维骨架”看图和解题,然后才值得给它更长的 reasoning budget。
如果一开始就允许模型无限展开思考,它往往不会更聪明,只会更会啰嗦。
这个 finding 为什么能解决上面的挑战?因为它直接回应了 overthinking 的因果链:
- 因为视觉条件抽取本来就脆弱,
- 所以一旦 reasoning length 太长,模型会在错误中间表示上继续滚雪球,
- 最终出现“思考更长但答案更差”的现象。
PTST 的作用,就是先把模型拉回到更短、更受控的 reasoning regime,让它优先学会正确的 thought pattern;然后再逐步放开 4K、8K、16K 的长度限制,让复杂推理能力建立在正确思维习惯之上,而不是建立在无效展开之上。
如果用一个很直观的例子来理解:
- 错误做法像是让一个还没学会看几何辅助线的学生,直接写三页解题过程;
- Vision-R1 的做法像是先要求他用更短的步骤把关键关系说对,再慢慢允许他展开更复杂的证明。
这就是这篇论文最值钱的地方:它告诉你,多模态 reasoning 的瓶颈不是“长不长”,而是“先不先把思路校正”。
🔬 方法
整体流程
Vision-R1 的方法可以拆成三段:
- 构造 Vision-R1-cold 冷启动数据
- 用冷启动数据训练 Vision-R1-CI(Cold-start Initialization)
- 用 PTST + GRPO 做 RL,得到最终 Vision-R1
第一步:构造 200K 的多模态 CoT 冷启动数据
作者没有人工标注大规模视觉 reasoning 轨迹,而是用一种 modality bridging 的方式自动构造数据。
大致过程是:
- 对原始多模态题目(图像 + 问题)先让现有 MLLM 生成伪 CoT,包括图像描述和初步 reasoning。
- 再把这些语言化描述与原问题一起交给 DeepSeek-R1。
- 利用 DeepSeek-R1 生成更高质量的文字推理过程。
- 经过后处理和过滤,把这些 reasoning 重新和原始图像问题配对,得到最终的多模态 CoT 数据。
作者最终构造了 200K 的 Vision-R1-cold dataset。
它的作用不是直接让模型毕业,而是给模型一个“多模态推理长什么样”的冷启动起点。
这个设计很聪明,因为它绕开了一个大瓶颈:人类很难大规模写出高质量的多模态 CoT,但文本 R1 已经会推理,可以通过桥接把视觉题目暂时转成更适合文本推理的表示。
第二步:冷启动初始化
作者基于开源 MLLM 做 SFT,得到 Vision-R1-CI。
论文和官方仓库主要基于 Qwen2.5-VL-7B,后续项目页也给出了更大模型版本。
这一步的目的不是拿到最终性能,而是先让模型学会两件事:
- 看图后如何把视觉条件组织成可推理的信息;
- 如何输出比较完整的多模态 CoT。
但这一步之后,问题马上出现:模型虽然更会“写推理过程”,却不一定更会“真正推理”。
第三步:PTST + GRPO 强化学习
作者采用 GRPO(Group Relative Policy Optimization) 做 RL,但核心不是 GRPO 本身,而是配合的 PTST(Progressive Thinking Suppression Training)。
PTST 怎么做
PTST 的核心思想是:逐步放开 reasoning length,而不是一开始就让模型无限展开。
在官方方法说明里,作者把 reasoning length 分成多个阶段:
- 第 1 阶段:
4Ktokens,group number =16 - 第 2 阶段:
8Ktokens,group number =8 - 第 3 阶段:
16Ktokens,group number =4
而且作者特别说明:最终版本的 Vision-R1 并没有使用完整的第三阶段训练。
这背后的逻辑非常关键:
- 先短一点,是为了让模型先把“正确 thought process”收敛出来;
- 再逐渐变长,是为了让模型在已经比较可靠的中间思路上继续获得复杂 reasoning 能力;
- 如果一开始就让它想太久,模型反而更容易漂向低质量冗长推理。
奖励函数
RL 的 reward 采用 hard formatting result reward function(HFRRF)。
它强调两个东西:
- 结果要对
- 格式要满足要求
这种设计比单纯看最终答案更稳,因为它至少保证模型不会完全丢掉 reasoning 输出结构;同时又比软性的“看起来像在思考”更硬,不容易被空洞长回答钻空子。
📊 实验与结论
主结果一:7B 模型已经接近顶级闭源视觉推理模型
论文和官方项目页给出的核心结果是,Vision-R1-7B 在 MathVista 上达到 73.5%。
这件事的意义不只是“数字高”,而是它和强基线的距离非常近:
- 与 OpenAI o1 的差距只有 0.4%
- 相比 Qwen2.5-VL-7B 的 68.1%,提升了 5.4%
这说明作者并不是只做出一个“会输出长推理链”的 demo,而是真的把 7B 级别的开源 MLLM 推到了接近当时最强视觉 reasoning 模型的水平。
主结果二:提升不是单点 benchmark 偶然,而是多个多模态数学基准上都有增益
Vision-R1-7B 在官方项目页给出的主要结果如下:
| 模型 | MathVista | MathVerse | MathVerse Mini Vision-Only | MM-Math | DynaMath | 平均 |
|---|---|---|---|---|---|---|
| Qwen2.5-VL-7B | 68.1 | 46.7 | 40.2 | 34.1 | 50.7 | 47.9 |
| Vision-R1-7B | 73.5 | 52.4 | 46.7 | 40.2 | 56.3 | 53.8 |
也就是说,平均提升大约 5.9 个点。
这个结果很重要,因为它说明 Vision-R1 学到的不是某个 benchmark 的 prompt trick,而是更普遍的视觉 reasoning 改善。
尤其是 MM-Math 从 34.1 到 40.2,提升 6.1;MathVerse mini vision-only 从 40.2 到 46.7,提升 6.7。这说明收益不仅来自文本 reasoning,也来自更稳定的“视觉条件抽取 + 推理衔接”。
主结果三:直接 RL 不行,冷启动 + PTST 才行
这是论文里最值得学的方法论结论。
作者在方法图和项目页里明确展示了几种状态:
- 直接 RL 的 Vision-R1-Zero:很难激发强 reasoning,泛化差;
- 仅冷启动的 Vision-R1-CI:已经会写较长 CoT,但容易陷入 overthinking;
- 最终 Vision-R1:通过 PTST 逐步把 reasoning 变复杂,性能才真正上去。
这个 finding 的价值在于,它告诉你:
- 多模态 reasoning 不会像文本 R1 那样,靠“纯 RL”轻松涌现;
- 冷启动数据非常关键;
- 但冷启动不是终点,还需要专门解决 reasoning length 的优化稳定性。
举个例子来说:
Vision-R1-Zero像是让一个学生直接刷竞赛题,希望他在试错中自己学会解题;Vision-R1-CI像是先给他看很多标准解答,于是他学会了“写长答案”;Vision-R1 + PTST才像是真正的教学:先让他用简洁步骤把关键思路走对,再逐步允许更复杂的展开。
主结果四:后续扩展到更大模型后,收益还在继续
官方仓库后来还给出更大规模版本的结果:
| 模型 | MathVista | MathVerse | MM-Math | DynaMath | 平均 |
|---|---|---|---|---|---|
| Vision-R1-32B | 76.4 | 62.1 | 55.3 | 65.6 | 63.7 |
| Vision-R1-72B | 78.2 | 63.2 | 59.3 | 66.4 | 65.0 |
作者注明,32B 和 72B 使用了额外 RL 数据,所以不能和 7B 做完全公平的一一对比。但这个补充结果至少说明:Vision-R1 不是只在 7B 上成立的特例,而是有向更大模型扩展的潜力。
结论
这篇论文最终说明了三件事:
- R1 式强化学习可以迁移到 MLLM,但不能生搬硬套。
- 高质量冷启动数据是激活多模态 reasoning 的前提。
- 真正决定训练成败的关键,不是让模型“想得更长”,而是让模型在正确时机逐步获得更长的 reasoning 能力。
如果用一句更口语的话总结:
Vision-R1 不是在教模型“多写一点思维链”,而是在教模型“先学会正确地想,再逐步学会更复杂地想”。
🧠 关键术语
- Multimodal Large Language Model(多模态大语言模型,MLLM):既能处理文本,也能处理图像的模型。例子:Qwen2.5-VL 看图后回答问题,但原始版本在复杂视觉数学推理上还不够强。
- Modality Bridging(模态桥接):先把图像中的信息转成更适合文本推理的描述,再借助强文本模型生成 reasoning。例子:先让一个 MLLM 描述图中的几何关系,再交给 DeepSeek-R1 生成更高质量推理链。
- Cold-start Initialization(冷启动初始化):先用高质量示范数据把模型带到一个更好的起点,再继续 RL。例子:用 200K Vision-R1-cold 数据训练出 Vision-R1-CI。
- Chain-of-Thought, CoT(思维链):模型在给最终答案前显式写出的中间推理过程。例子:先识别图表坐标,再比较两列数值,最后得出最大值。
- PTST, Progressive Thinking Suppression Training(渐进式思维抑制训练):先压制过长推理,再逐步放开 reasoning length 的训练策略。例子:先限制在 4K token 内学会正确推理,再扩展到 8K 和 16K。
- GRPO, Group Relative Policy Optimization(组相对策略优化):对同一问题采样一组回答,用组内相对表现更新策略。例子:同一张图的几何题采样多条解法,答得更对、格式更合格的轨迹得到更高奖励。
- HFRRF, Hard Formatting Result Reward Function(硬格式结果奖励函数):同时要求答案正确且输出格式合规的奖励设计。例子:即使中间写了很长 reasoning,如果最终答案错或格式不符,reward 也不会高。
- Overthinking Optimization Problem(过度思考优化问题):模型把“更长的推理”错当成“更好的推理”,导致输出更长但性能下降。例子:几何题本来三步能解,模型却写十几步重复分析,最后反而算错。
💭 个人评价
✅ 优点
- 问题抓得准:它不是泛泛谈视觉推理,而是直接回答“为什么文本 R1 成功,多模态版却不能直接复刻”。
- finding 很清楚:不是盲目追求更长 CoT,而是强调“短到长”的训练节奏控制。
- 方法有工程可操作性:冷启动数据、PTST 阶段划分、GRPO 奖励设计都相对明确,可复现性强。
- 实验说服力不错:7B 模型就在多个数学视觉推理 benchmark 上稳定提升,而不是只赢一个数据集。
⚠️ 局限
- 任务仍然偏数学/图表 reasoning:它证明了复杂视觉 reasoning 的可行性,但更多集中在可验证的数学型场景。
- 依赖高质量冷启动数据:如果没有 DeepSeek-R1 和现有 MLLM 参与构造数据,这条路线的门槛并不低。
- 对通用视觉理解是否有一致收益还不充分:论文重点展示的是 reasoning benchmark,不是广泛的通用多模态能力。
- 长推理的推理成本依然高:即使 PTST 缓解了 overthinking,真正部署时 token 成本和时延仍然是现实问题。
💡 启发
- 对多模态推理来说,数据桥接和训练节奏 可能比单纯换 RL 算法更重要。
- 以后做视觉 reasoning,不能只追求“让模型想更久”,而要先问:它有没有先抓住图里的关键条件?
- 这篇工作也提示一个更一般的方向:很多 reasoning 训练问题,本质上不是“模型不会想”,而是“模型在错误的搜索空间里想太久”。
🔗 相关论文
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- Qwen2.5-VL
- LLaVA-CoT
- Mulberry-SFT
- Visual-RFT / MedVLM-R1 等后续视觉 RL 工作
阅读时间:约 3 小时
推荐指数:⭐⭐⭐⭐⭐
适合读者:多模态学习、强化学习、视觉数学推理、后训练方向研究者
一句话总结:Vision-R1 的关键不是“把 R1 搬到视觉模型上”,而是发现了一个更细的训练规律:多模态推理必须先通过冷启动和长度抑制学会正确思考骨架,再逐步放开更长 reasoning,才能把“会看图”真正升级成“会看图并推理”。