📋 论文概述

这篇论文讨论的不是“怎么把视觉模型做得更会看图”,而是一个更难的问题:怎么让多模态大模型真的学会像 R1 那样推理。

文本领域里,DeepSeek-R1-Zero 这条线已经证明:只要奖励设计得合适,纯强化学习可以诱发长链推理、自我检查、反思和纠错。但一到多模态场景,事情立刻变难。因为图像里的关键信息不像文本那样已经被离散化,模型需要先从图像里抓住几何关系、图表数值或空间结构,才有机会进入“推理”阶段。于是作者问了一个很直接的问题:

如果把 R1 式强化学习直接搬到 MLLM 上,会发生什么?

答案是:不够。直接 RL 激不出足够强的视觉推理。
所以作者提出 Vision-R1:先构造一个高质量多模态 CoT 冷启动数据集,让模型先学会“怎么把图像理解和文字推理接起来”;然后再用强化学习精炼推理过程。但作者很快又发现,只是“先冷启动再 RL”还不够,因为模型会掉进一个新的坑:overthinking optimization problem。也就是推理链越长,不一定越好,训练反而可能把模型推向更长但更差的思考过程。

Vision-R1 真正的新意,就在于作者不是简单堆“更多 CoT”或“更长推理链”,而是提出 PTST(Progressive Thinking Suppression Training):先压短、再放长,逐步放开 reasoning length,让模型先把“正确思考方式”学稳,再学更复杂的长程推理。

🎯 研究背景

这篇工作位于三个研究方向的交叉点:

  • 多模态大语言模型(MLLM / MLLM reasoning):代表工作如 LLaVA、Qwen2.5-VL,这类模型已经很会做图像问答和描述,但遇到需要多步推理的数学、图表、几何任务时仍然明显掉队。
  • R1-style reasoning RL:DeepSeek-R1 说明语言模型可以通过冷启动 + 强化学习形成反思、质疑和验证式推理,但这个结论主要建立在纯文本任务上。
  • 多模态数学推理:MathVista、MathVerse、MM-Math、DynaMath 等 benchmark 把“看懂图”和“解题”绑在一起,是测试视觉推理最直接的场景。

简化地说,之前大家已经知道两件事:

  1. 文本模型能通过 RL 学出很强的 reasoning。
  2. 视觉语言模型能看图,但还不太会深度 reasoning。

这篇论文关心的是第三件事:这两件事能不能真正合起来?

⚠️ 问题与挑战

论文要解决的问题是:如何有效激活多模态大模型的复杂推理能力,而不是只让它更会描述图像或套模板输出 CoT。

这个问题之所以难,不是因为“视觉任务更复杂”这么笼统,而是因为有几层因果上的障碍:

1. 因为视觉信息没有天然的语言化表示,所以 RL 很难直接作用在“正确推理”上

在文本数学题里,问题本身已经是结构化语言;但在多模态数学题里,很多关键条件藏在图里。比如:

  • 一个几何题的关键可能是角度标记的位置;
  • 一个统计题的关键可能是柱状图的高度关系;
  • 一个表格题的关键可能是某列的极值。

如果模型连这些视觉条件都没稳定抽出来,后面的 reasoning 再长也只是“对着错误前提瞎想”。

2. 因为高质量多模态 reasoning 数据稀缺,所以直接 RL 很难触发 DeepSeek-R1 式的“aha moment”

作者明确指出,直接把 RL 套在 MLLM 上,模型并不会自然学出像文本 R1 那样明显的 questioning、reflection 和 self-correction。原因在于:没有足够多高质量的多模态 reasoning 轨迹作支撑,搜索空间太大,优化太不稳定。

3. 因为冷启动后的模型容易走向“更长但不更对”的推理,所以单纯延长 CoT 反而会恶化训练

这是论文里最关键也最有意思的挑战。作者观察到:

  • 冷启动模型 Vision-R1-CI 已经会写长 CoT;
  • 但继续 RL 时,推理长度变长,性能却下降;
  • 模型容易把“写得更长”误当成“推理得更好”。

也就是说,因为长推理链给了模型更多输出空间,所以它很容易把算力花在冗长解释上,而不是花在更准确的中间思考上。
这就是论文说的 overthinking optimization problem

4. 因为多模态推理的奖励信号更脆弱,所以奖励设计必须足够“硬”

如果奖励只偏向表面格式,模型会学会写得像 reasoning;如果奖励太软,模型会 reward hack;如果奖励完全只看最终答案,又会丢掉推理结构训练的稳定性。作者最后采用的是 hard formatting result reward function(HFRRF),本质上是把“答对”和“输出格式合格”一起纳入一个比较硬的奖励约束。

🔍 核心发现 Finding

作者明确声称

作者的发现可以概括为两点:

  1. 直接对 MLLM 做 RL,不足以有效激发强推理能力。
  2. 高质量冷启动数据 + 渐进式抑制/释放推理长度的 RL 策略,可以显著提升多模态推理能力。

我的理解

我认为这篇论文最重要的 Finding 不是“又做了一个多模态 R1”,而是下面这个更深的判断:

对多模态模型来说,问题不只是“要不要做长推理”,而是“什么时候应该压短推理,什么时候才应该放长推理”。

这和很多直觉相反。很多人看到 R1 类工作后,第一反应会是:

  • 只要让模型想得更久;
  • 只要让 CoT 更长;
  • 只要让 RL 多跑一点;

推理能力就会自然上来。

这篇论文其实在说:不对。

作者的关键 insight 是:
在多模态推理里,模型先要学会“用对的思维骨架”看图和解题,然后才值得给它更长的 reasoning budget。
如果一开始就允许模型无限展开思考,它往往不会更聪明,只会更会啰嗦。

这个 finding 为什么能解决上面的挑战?因为它直接回应了 overthinking 的因果链:

  • 因为视觉条件抽取本来就脆弱,
  • 所以一旦 reasoning length 太长,模型会在错误中间表示上继续滚雪球,
  • 最终出现“思考更长但答案更差”的现象。

PTST 的作用,就是先把模型拉回到更短、更受控的 reasoning regime,让它优先学会正确的 thought pattern;然后再逐步放开 4K、8K、16K 的长度限制,让复杂推理能力建立在正确思维习惯之上,而不是建立在无效展开之上。

如果用一个很直观的例子来理解:

  • 错误做法像是让一个还没学会看几何辅助线的学生,直接写三页解题过程;
  • Vision-R1 的做法像是先要求他用更短的步骤把关键关系说对,再慢慢允许他展开更复杂的证明。

这就是这篇论文最值钱的地方:它告诉你,多模态 reasoning 的瓶颈不是“长不长”,而是“先不先把思路校正”。

🔬 方法

整体流程

Vision-R1 的方法可以拆成三段:

  1. 构造 Vision-R1-cold 冷启动数据
  2. 用冷启动数据训练 Vision-R1-CI(Cold-start Initialization)
  3. 用 PTST + GRPO 做 RL,得到最终 Vision-R1

第一步:构造 200K 的多模态 CoT 冷启动数据

作者没有人工标注大规模视觉 reasoning 轨迹,而是用一种 modality bridging 的方式自动构造数据。

大致过程是:

  1. 对原始多模态题目(图像 + 问题)先让现有 MLLM 生成伪 CoT,包括图像描述和初步 reasoning。
  2. 再把这些语言化描述与原问题一起交给 DeepSeek-R1。
  3. 利用 DeepSeek-R1 生成更高质量的文字推理过程。
  4. 经过后处理和过滤,把这些 reasoning 重新和原始图像问题配对,得到最终的多模态 CoT 数据。

作者最终构造了 200K 的 Vision-R1-cold dataset
它的作用不是直接让模型毕业,而是给模型一个“多模态推理长什么样”的冷启动起点。

这个设计很聪明,因为它绕开了一个大瓶颈:人类很难大规模写出高质量的多模态 CoT,但文本 R1 已经会推理,可以通过桥接把视觉题目暂时转成更适合文本推理的表示。

第二步:冷启动初始化

作者基于开源 MLLM 做 SFT,得到 Vision-R1-CI
论文和官方仓库主要基于 Qwen2.5-VL-7B,后续项目页也给出了更大模型版本。

这一步的目的不是拿到最终性能,而是先让模型学会两件事:

  • 看图后如何把视觉条件组织成可推理的信息;
  • 如何输出比较完整的多模态 CoT。

但这一步之后,问题马上出现:模型虽然更会“写推理过程”,却不一定更会“真正推理”。

第三步:PTST + GRPO 强化学习

作者采用 GRPO(Group Relative Policy Optimization) 做 RL,但核心不是 GRPO 本身,而是配合的 PTST(Progressive Thinking Suppression Training)

PTST 怎么做

PTST 的核心思想是:逐步放开 reasoning length,而不是一开始就让模型无限展开。

在官方方法说明里,作者把 reasoning length 分成多个阶段:

  • 第 1 阶段:4K tokens,group number = 16
  • 第 2 阶段:8K tokens,group number = 8
  • 第 3 阶段:16K tokens,group number = 4

而且作者特别说明:最终版本的 Vision-R1 并没有使用完整的第三阶段训练。

这背后的逻辑非常关键:

  • 先短一点,是为了让模型先把“正确 thought process”收敛出来;
  • 再逐渐变长,是为了让模型在已经比较可靠的中间思路上继续获得复杂 reasoning 能力;
  • 如果一开始就让它想太久,模型反而更容易漂向低质量冗长推理。

奖励函数

RL 的 reward 采用 hard formatting result reward function(HFRRF)

它强调两个东西:

  1. 结果要对
  2. 格式要满足要求

这种设计比单纯看最终答案更稳,因为它至少保证模型不会完全丢掉 reasoning 输出结构;同时又比软性的“看起来像在思考”更硬,不容易被空洞长回答钻空子。

📊 实验与结论

主结果一:7B 模型已经接近顶级闭源视觉推理模型

论文和官方项目页给出的核心结果是,Vision-R1-7B 在 MathVista 上达到 73.5%

这件事的意义不只是“数字高”,而是它和强基线的距离非常近:

  • OpenAI o1 的差距只有 0.4%
  • 相比 Qwen2.5-VL-7B68.1%,提升了 5.4%

这说明作者并不是只做出一个“会输出长推理链”的 demo,而是真的把 7B 级别的开源 MLLM 推到了接近当时最强视觉 reasoning 模型的水平。

主结果二:提升不是单点 benchmark 偶然,而是多个多模态数学基准上都有增益

Vision-R1-7B 在官方项目页给出的主要结果如下:

模型MathVistaMathVerseMathVerse Mini Vision-OnlyMM-MathDynaMath平均
Qwen2.5-VL-7B68.146.740.234.150.747.9
Vision-R1-7B73.552.446.740.256.353.8

也就是说,平均提升大约 5.9 个点

这个结果很重要,因为它说明 Vision-R1 学到的不是某个 benchmark 的 prompt trick,而是更普遍的视觉 reasoning 改善。
尤其是 MM-Math34.140.2,提升 6.1MathVerse mini vision-only40.246.7,提升 6.7。这说明收益不仅来自文本 reasoning,也来自更稳定的“视觉条件抽取 + 推理衔接”。

主结果三:直接 RL 不行,冷启动 + PTST 才行

这是论文里最值得学的方法论结论。

作者在方法图和项目页里明确展示了几种状态:

  • 直接 RL 的 Vision-R1-Zero:很难激发强 reasoning,泛化差;
  • 仅冷启动的 Vision-R1-CI:已经会写较长 CoT,但容易陷入 overthinking;
  • 最终 Vision-R1:通过 PTST 逐步把 reasoning 变复杂,性能才真正上去。

这个 finding 的价值在于,它告诉你:

  • 多模态 reasoning 不会像文本 R1 那样,靠“纯 RL”轻松涌现;
  • 冷启动数据非常关键;
  • 但冷启动不是终点,还需要专门解决 reasoning length 的优化稳定性。

举个例子来说:

  • Vision-R1-Zero 像是让一个学生直接刷竞赛题,希望他在试错中自己学会解题;
  • Vision-R1-CI 像是先给他看很多标准解答,于是他学会了“写长答案”;
  • Vision-R1 + PTST 才像是真正的教学:先让他用简洁步骤把关键思路走对,再逐步允许更复杂的展开。

主结果四:后续扩展到更大模型后,收益还在继续

官方仓库后来还给出更大规模版本的结果:

模型MathVistaMathVerseMM-MathDynaMath平均
Vision-R1-32B76.462.155.365.663.7
Vision-R1-72B78.263.259.366.465.0

作者注明,32B72B 使用了额外 RL 数据,所以不能和 7B 做完全公平的一一对比。但这个补充结果至少说明:Vision-R1 不是只在 7B 上成立的特例,而是有向更大模型扩展的潜力。

结论

这篇论文最终说明了三件事:

  1. R1 式强化学习可以迁移到 MLLM,但不能生搬硬套。
  2. 高质量冷启动数据是激活多模态 reasoning 的前提。
  3. 真正决定训练成败的关键,不是让模型“想得更长”,而是让模型在正确时机逐步获得更长的 reasoning 能力。

如果用一句更口语的话总结:

Vision-R1 不是在教模型“多写一点思维链”,而是在教模型“先学会正确地想,再逐步学会更复杂地想”。

🧠 关键术语

  • Multimodal Large Language Model(多模态大语言模型,MLLM):既能处理文本,也能处理图像的模型。例子:Qwen2.5-VL 看图后回答问题,但原始版本在复杂视觉数学推理上还不够强。
  • Modality Bridging(模态桥接):先把图像中的信息转成更适合文本推理的描述,再借助强文本模型生成 reasoning。例子:先让一个 MLLM 描述图中的几何关系,再交给 DeepSeek-R1 生成更高质量推理链。
  • Cold-start Initialization(冷启动初始化):先用高质量示范数据把模型带到一个更好的起点,再继续 RL。例子:用 200K Vision-R1-cold 数据训练出 Vision-R1-CI。
  • Chain-of-Thought, CoT(思维链):模型在给最终答案前显式写出的中间推理过程。例子:先识别图表坐标,再比较两列数值,最后得出最大值。
  • PTST, Progressive Thinking Suppression Training(渐进式思维抑制训练):先压制过长推理,再逐步放开 reasoning length 的训练策略。例子:先限制在 4K token 内学会正确推理,再扩展到 8K 和 16K。
  • GRPO, Group Relative Policy Optimization(组相对策略优化):对同一问题采样一组回答,用组内相对表现更新策略。例子:同一张图的几何题采样多条解法,答得更对、格式更合格的轨迹得到更高奖励。
  • HFRRF, Hard Formatting Result Reward Function(硬格式结果奖励函数):同时要求答案正确且输出格式合规的奖励设计。例子:即使中间写了很长 reasoning,如果最终答案错或格式不符,reward 也不会高。
  • Overthinking Optimization Problem(过度思考优化问题):模型把“更长的推理”错当成“更好的推理”,导致输出更长但性能下降。例子:几何题本来三步能解,模型却写十几步重复分析,最后反而算错。

💭 个人评价

✅ 优点

  • 问题抓得准:它不是泛泛谈视觉推理,而是直接回答“为什么文本 R1 成功,多模态版却不能直接复刻”。
  • finding 很清楚:不是盲目追求更长 CoT,而是强调“短到长”的训练节奏控制。
  • 方法有工程可操作性:冷启动数据、PTST 阶段划分、GRPO 奖励设计都相对明确,可复现性强。
  • 实验说服力不错:7B 模型就在多个数学视觉推理 benchmark 上稳定提升,而不是只赢一个数据集。

⚠️ 局限

  • 任务仍然偏数学/图表 reasoning:它证明了复杂视觉 reasoning 的可行性,但更多集中在可验证的数学型场景。
  • 依赖高质量冷启动数据:如果没有 DeepSeek-R1 和现有 MLLM 参与构造数据,这条路线的门槛并不低。
  • 对通用视觉理解是否有一致收益还不充分:论文重点展示的是 reasoning benchmark,不是广泛的通用多模态能力。
  • 长推理的推理成本依然高:即使 PTST 缓解了 overthinking,真正部署时 token 成本和时延仍然是现实问题。

💡 启发

  • 对多模态推理来说,数据桥接和训练节奏 可能比单纯换 RL 算法更重要。
  • 以后做视觉 reasoning,不能只追求“让模型想更久”,而要先问:它有没有先抓住图里的关键条件?
  • 这篇工作也提示一个更一般的方向:很多 reasoning 训练问题,本质上不是“模型不会想”,而是“模型在错误的搜索空间里想太久”。

🔗 相关论文

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • Qwen2.5-VL
  • LLaVA-CoT
  • Mulberry-SFT
  • Visual-RFT / MedVLM-R1 等后续视觉 RL 工作

阅读时间:约 3 小时
推荐指数:⭐⭐⭐⭐⭐
适合读者:多模态学习、强化学习、视觉数学推理、后训练方向研究者

一句话总结:Vision-R1 的关键不是“把 R1 搬到视觉模型上”,而是发现了一个更细的训练规律:多模态推理必须先通过冷启动和长度抑制学会正确思考骨架,再逐步放开更长 reasoning,才能把“会看图”真正升级成“会看图并推理”。