Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

论文概览

快速判断这篇论文

Vision-R1 研究如何把 DeepSeek-R1 式强化学习迁移到多模态大模型上。作者先通过 modality bridging 构造 200K 的多模态 CoT 冷启动数据，再用 PTST 配合 GRPO 和硬格式结果奖励逐步放开推理长度，最终让 7B 模型在 MathVista 上达到 73.5%，逼近 OpenAI o1 级别的多模态数学推理表现。

领域多模态学习

年份 2025

发表于 ICLR 2026

状态已完成

评分 5/5

阅读日期 2026-04-13

作者：Wenxuan Huang, Bohan Jia, Zijie Zhai 等

Wenxuan Huang, Bohan Jia, Zijie Zhai, Shaosheng Cao, Zheyu Ye, Fei Zhao, Zhe Xu, Yao Hu, Shaohui Lin

📋 论文概述

这篇论文讨论的不是“怎么把视觉模型做得更会看图”，而是一个更难的问题：怎么让多模态大模型真的学会像 R1 那样推理。

文本领域里，DeepSeek-R1-Zero 这条线已经证明：只要奖励设计得合适，纯强化学习可以诱发长链推理、自我检查、反思和纠错。但一到多模态场景，事情立刻变难。因为图像里的关键信息不像文本那样已经被离散化，模型需要先从图像里抓住几何关系、图表数值或空间结构，才有机会进入“推理”阶段。于是作者问了一个很直接的问题：

如果把 R1 式强化学习直接搬到 MLLM 上，会发生什么？

答案是：不够。直接 RL 激不出足够强的视觉推理。
所以作者提出 Vision-R1：先构造一个高质量多模态 CoT 冷启动数据集，让模型先学会“怎么把图像理解和文字推理接起来”；然后再用强化学习精炼推理过程。但作者很快又发现，只是“先冷启动再 RL”还不够，因为模型会掉进一个新的坑：overthinking optimization problem。也就是推理链越长，不一定越好，训练反而可能把模型推向更长但更差的思考过程。

Vision-R1 真正的新意，就在于作者不是简单堆“更多 CoT”或“更长推理链”，而是提出 PTST（Progressive Thinking Suppression Training）：先压短、再放长，逐步放开 reasoning length，让模型先把“正确思考方式”学稳，再学更复杂的长程推理。

🎯 研究背景

这篇工作位于三个研究方向的交叉点：

多模态大语言模型（MLLM / MLLM reasoning）：代表工作如 LLaVA、Qwen2.5-VL，这类模型已经很会做图像问答和描述，但遇到需要多步推理的数学、图表、几何任务时仍然明显掉队。
R1-style reasoning RL：DeepSeek-R1 说明语言模型可以通过冷启动 + 强化学习形成反思、质疑和验证式推理，但这个结论主要建立在纯文本任务上。
多模态数学推理：MathVista、MathVerse、MM-Math、DynaMath 等 benchmark 把“看懂图”和“解题”绑在一起，是测试视觉推理最直接的场景。

简化地说，之前大家已经知道两件事：

文本模型能通过 RL 学出很强的 reasoning。
视觉语言模型能看图，但还不太会深度 reasoning。

这篇论文关心的是第三件事：这两件事能不能真正合起来？

⚠️ 问题与挑战

论文要解决的问题是：如何有效激活多模态大模型的复杂推理能力，而不是只让它更会描述图像或套模板输出 CoT。

这个问题之所以难，不是因为“视觉任务更复杂”这么笼统，而是因为有几层因果上的障碍：

1. 因为视觉信息没有天然的语言化表示，所以 RL 很难直接作用在“正确推理”上

在文本数学题里，问题本身已经是结构化语言；但在多模态数学题里，很多关键条件藏在图里。比如：

一个几何题的关键可能是角度标记的位置；
一个统计题的关键可能是柱状图的高度关系；
一个表格题的关键可能是某列的极值。

如果模型连这些视觉条件都没稳定抽出来，后面的 reasoning 再长也只是“对着错误前提瞎想”。

2. 因为高质量多模态 reasoning 数据稀缺，所以直接 RL 很难触发 DeepSeek-R1 式的“aha moment”

作者明确指出，直接把 RL 套在 MLLM 上，模型并不会自然学出像文本 R1 那样明显的 questioning、reflection 和 self-correction。原因在于：没有足够多高质量的多模态 reasoning 轨迹作支撑，搜索空间太大，优化太不稳定。

3. 因为冷启动后的模型容易走向“更长但不更对”的推理，所以单纯延长 CoT 反而会恶化训练

这是论文里最关键也最有意思的挑战。作者观察到：

冷启动模型 Vision-R1-CI 已经会写长 CoT；
但继续 RL 时，推理长度变长，性能却下降；
模型容易把“写得更长”误当成“推理得更好”。

也就是说，因为长推理链给了模型更多输出空间，所以它很容易把算力花在冗长解释上，而不是花在更准确的中间思考上。
这就是论文说的 overthinking optimization problem。

4. 因为多模态推理的奖励信号更脆弱，所以奖励设计必须足够“硬”

如果奖励只偏向表面格式，模型会学会写得像 reasoning；如果奖励太软，模型会 reward hack；如果奖励完全只看最终答案，又会丢掉推理结构训练的稳定性。作者最后采用的是 hard formatting result reward function（HFRRF），本质上是把“答对”和“输出格式合格”一起纳入一个比较硬的奖励约束。

🔍 核心发现 Finding

作者明确声称

作者的发现可以概括为两点：

直接对 MLLM 做 RL，不足以有效激发强推理能力。
高质量冷启动数据 + 渐进式抑制/释放推理长度的 RL 策略，可以显著提升多模态推理能力。

我的理解

我认为这篇论文最重要的 Finding 不是“又做了一个多模态 R1”，而是下面这个更深的判断：

对多模态模型来说，问题不只是“要不要做长推理”，而是“什么时候应该压短推理，什么时候才应该放长推理”。

这和很多直觉相反。很多人看到 R1 类工作后，第一反应会是：

只要让模型想得更久；
只要让 CoT 更长；
只要让 RL 多跑一点；

推理能力就会自然上来。

这篇论文其实在说：不对。

作者的关键 insight 是：
在多模态推理里，模型先要学会“用对的思维骨架”看图和解题，然后才值得给它更长的 reasoning budget。
如果一开始就允许模型无限展开思考，它往往不会更聪明，只会更会啰嗦。

这个 finding 为什么能解决上面的挑战？因为它直接回应了 overthinking 的因果链：

因为视觉条件抽取本来就脆弱，
所以一旦 reasoning length 太长，模型会在错误中间表示上继续滚雪球，
最终出现“思考更长但答案更差”的现象。

PTST 的作用，就是先把模型拉回到更短、更受控的 reasoning regime，让它优先学会正确的 thought pattern；然后再逐步放开 4K、8K、16K 的长度限制，让复杂推理能力建立在正确思维习惯之上，而不是建立在无效展开之上。

如果用一个很直观的例子来理解：

错误做法像是让一个还没学会看几何辅助线的学生，直接写三页解题过程；
Vision-R1 的做法像是先要求他用更短的步骤把关键关系说对，再慢慢允许他展开更复杂的证明。

这就是这篇论文最值钱的地方：它告诉你，多模态 reasoning 的瓶颈不是“长不长”，而是“先不先把思路校正”。

🔬 方法

整体流程

Vision-R1 的方法可以拆成三段：

构造 Vision-R1-cold 冷启动数据
用冷启动数据训练 Vision-R1-CI（Cold-start Initialization）
用 PTST + GRPO 做 RL，得到最终 Vision-R1

第一步：构造 200K 的多模态 CoT 冷启动数据

作者没有人工标注大规模视觉 reasoning 轨迹，而是用一种 modality bridging 的方式自动构造数据。

大致过程是：

对原始多模态题目（图像 + 问题）先让现有 MLLM 生成伪 CoT，包括图像描述和初步 reasoning。
再把这些语言化描述与原问题一起交给 DeepSeek-R1。
利用 DeepSeek-R1 生成更高质量的文字推理过程。
经过后处理和过滤，把这些 reasoning 重新和原始图像问题配对，得到最终的多模态 CoT 数据。

作者最终构造了 200K 的 Vision-R1-cold dataset。
它的作用不是直接让模型毕业，而是给模型一个“多模态推理长什么样”的冷启动起点。

这个设计很聪明，因为它绕开了一个大瓶颈：人类很难大规模写出高质量的多模态 CoT，但文本 R1 已经会推理，可以通过桥接把视觉题目暂时转成更适合文本推理的表示。

第二步：冷启动初始化

作者基于开源 MLLM 做 SFT，得到 Vision-R1-CI。
论文和官方仓库主要基于 Qwen2.5-VL-7B，后续项目页也给出了更大模型版本。

这一步的目的不是拿到最终性能，而是先让模型学会两件事：

看图后如何把视觉条件组织成可推理的信息；
如何输出比较完整的多模态 CoT。

但这一步之后，问题马上出现：模型虽然更会“写推理过程”，却不一定更会“真正推理”。

第三步：PTST + GRPO 强化学习

作者采用 GRPO（Group Relative Policy Optimization） 做 RL，但核心不是 GRPO 本身，而是配合的 PTST（Progressive Thinking Suppression Training）。

PTST 怎么做

PTST 的核心思想是：逐步放开 reasoning length，而不是一开始就让模型无限展开。

在官方方法说明里，作者把 reasoning length 分成多个阶段：

第 1 阶段：4K tokens，group number = 16
第 2 阶段：8K tokens，group number = 8
第 3 阶段：16K tokens，group number = 4

而且作者特别说明：最终版本的 Vision-R1 并没有使用完整的第三阶段训练。

这背后的逻辑非常关键：

先短一点，是为了让模型先把“正确 thought process”收敛出来；
再逐渐变长，是为了让模型在已经比较可靠的中间思路上继续获得复杂 reasoning 能力；
如果一开始就让它想太久，模型反而更容易漂向低质量冗长推理。

奖励函数

RL 的 reward 采用 hard formatting result reward function（HFRRF）。

它强调两个东西：

结果要对
格式要满足要求

这种设计比单纯看最终答案更稳，因为它至少保证模型不会完全丢掉 reasoning 输出结构；同时又比软性的“看起来像在思考”更硬，不容易被空洞长回答钻空子。

📊 实验与结论

主结果一：7B 模型已经接近顶级闭源视觉推理模型

论文和官方项目页给出的核心结果是，Vision-R1-7B 在 MathVista 上达到 73.5%。

这件事的意义不只是“数字高”，而是它和强基线的距离非常近：

与 OpenAI o1 的差距只有 0.4%
相比 Qwen2.5-VL-7B 的 68.1%，提升了 5.4%

这说明作者并不是只做出一个“会输出长推理链”的 demo，而是真的把 7B 级别的开源 MLLM 推到了接近当时最强视觉 reasoning 模型的水平。

主结果二：提升不是单点 benchmark 偶然，而是多个多模态数学基准上都有增益

Vision-R1-7B 在官方项目页给出的主要结果如下：

模型	MathVista	MathVerse	MathVerse Mini Vision-Only	MM-Math	DynaMath	平均
Qwen2.5-VL-7B	68.1	46.7	40.2	34.1	50.7	47.9
Vision-R1-7B	73.5	52.4	46.7	40.2	56.3	53.8

也就是说，平均提升大约 5.9 个点。

这个结果很重要，因为它说明 Vision-R1 学到的不是某个 benchmark 的 prompt trick，而是更普遍的视觉 reasoning 改善。
尤其是 MM-Math 从 34.1 到 40.2，提升 6.1；MathVerse mini vision-only 从 40.2 到 46.7，提升 6.7。这说明收益不仅来自文本 reasoning，也来自更稳定的“视觉条件抽取 + 推理衔接”。

主结果三：直接 RL 不行，冷启动 + PTST 才行

这是论文里最值得学的方法论结论。

作者在方法图和项目页里明确展示了几种状态：

直接 RL 的 Vision-R1-Zero：很难激发强 reasoning，泛化差；
仅冷启动的 Vision-R1-CI：已经会写较长 CoT，但容易陷入 overthinking；
最终 Vision-R1：通过 PTST 逐步把 reasoning 变复杂，性能才真正上去。

这个 finding 的价值在于，它告诉你：

多模态 reasoning 不会像文本 R1 那样，靠“纯 RL”轻松涌现；
冷启动数据非常关键；
但冷启动不是终点，还需要专门解决 reasoning length 的优化稳定性。

举个例子来说：

Vision-R1-Zero 像是让一个学生直接刷竞赛题，希望他在试错中自己学会解题；
Vision-R1-CI 像是先给他看很多标准解答，于是他学会了“写长答案”；
Vision-R1 + PTST 才像是真正的教学：先让他用简洁步骤把关键思路走对，再逐步允许更复杂的展开。

主结果四：后续扩展到更大模型后，收益还在继续

官方仓库后来还给出更大规模版本的结果：

模型	MathVista	MathVerse	MM-Math	DynaMath	平均
Vision-R1-32B	76.4	62.1	55.3	65.6	63.7
Vision-R1-72B	78.2	63.2	59.3	66.4	65.0

作者注明，32B 和 72B 使用了额外 RL 数据，所以不能和 7B 做完全公平的一一对比。但这个补充结果至少说明：Vision-R1 不是只在 7B 上成立的特例，而是有向更大模型扩展的潜力。

结论

这篇论文最终说明了三件事：

R1 式强化学习可以迁移到 MLLM，但不能生搬硬套。
高质量冷启动数据是激活多模态 reasoning 的前提。
真正决定训练成败的关键，不是让模型“想得更长”，而是让模型在正确时机逐步获得更长的 reasoning 能力。

如果用一句更口语的话总结：

Vision-R1 不是在教模型“多写一点思维链”，而是在教模型“先学会正确地想，再逐步学会更复杂地想”。

🧠 关键术语

Multimodal Large Language Model（多模态大语言模型，MLLM）：既能处理文本，也能处理图像的模型。例子：Qwen2.5-VL 看图后回答问题，但原始版本在复杂视觉数学推理上还不够强。
Modality Bridging（模态桥接）：先把图像中的信息转成更适合文本推理的描述，再借助强文本模型生成 reasoning。例子：先让一个 MLLM 描述图中的几何关系，再交给 DeepSeek-R1 生成更高质量推理链。
Cold-start Initialization（冷启动初始化）：先用高质量示范数据把模型带到一个更好的起点，再继续 RL。例子：用 200K Vision-R1-cold 数据训练出 Vision-R1-CI。
Chain-of-Thought, CoT（思维链）：模型在给最终答案前显式写出的中间推理过程。例子：先识别图表坐标，再比较两列数值，最后得出最大值。
PTST, Progressive Thinking Suppression Training（渐进式思维抑制训练）：先压制过长推理，再逐步放开 reasoning length 的训练策略。例子：先限制在 4K token 内学会正确推理，再扩展到 8K 和 16K。
GRPO, Group Relative Policy Optimization（组相对策略优化）：对同一问题采样一组回答，用组内相对表现更新策略。例子：同一张图的几何题采样多条解法，答得更对、格式更合格的轨迹得到更高奖励。
HFRRF, Hard Formatting Result Reward Function（硬格式结果奖励函数）：同时要求答案正确且输出格式合规的奖励设计。例子：即使中间写了很长 reasoning，如果最终答案错或格式不符，reward 也不会高。
Overthinking Optimization Problem（过度思考优化问题）：模型把“更长的推理”错当成“更好的推理”，导致输出更长但性能下降。例子：几何题本来三步能解，模型却写十几步重复分析，最后反而算错。

💭 个人评价

✅ 优点

问题抓得准：它不是泛泛谈视觉推理，而是直接回答“为什么文本 R1 成功，多模态版却不能直接复刻”。
finding 很清楚：不是盲目追求更长 CoT，而是强调“短到长”的训练节奏控制。
方法有工程可操作性：冷启动数据、PTST 阶段划分、GRPO 奖励设计都相对明确，可复现性强。
实验说服力不错：7B 模型就在多个数学视觉推理 benchmark 上稳定提升，而不是只赢一个数据集。

⚠️ 局限

任务仍然偏数学/图表 reasoning：它证明了复杂视觉 reasoning 的可行性，但更多集中在可验证的数学型场景。
依赖高质量冷启动数据：如果没有 DeepSeek-R1 和现有 MLLM 参与构造数据，这条路线的门槛并不低。
对通用视觉理解是否有一致收益还不充分：论文重点展示的是 reasoning benchmark，不是广泛的通用多模态能力。
长推理的推理成本依然高：即使 PTST 缓解了 overthinking，真正部署时 token 成本和时延仍然是现实问题。

💡 启发

对多模态推理来说，数据桥接和训练节奏 可能比单纯换 RL 算法更重要。
以后做视觉 reasoning，不能只追求“让模型想更久”，而要先问：它有没有先抓住图里的关键条件？
这篇工作也提示一个更一般的方向：很多 reasoning 训练问题，本质上不是“模型不会想”，而是“模型在错误的搜索空间里想太久”。

🔗 相关论文

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Qwen2.5-VL
LLaVA-CoT
Mulberry-SFT
Visual-RFT / MedVLM-R1 等后续视觉 RL 工作

阅读时间：约 3 小时
推荐指数：⭐⭐⭐⭐⭐
适合读者：多模态学习、强化学习、视觉数学推理、后训练方向研究者

一句话总结：Vision-R1 的关键不是“把 R1 搬到视觉模型上”，而是发现了一个更细的训练规律：多模态推理必须先通过冷启动和长度抑制学会正确思考骨架，再逐步放开更长 reasoning，才能把“会看图”真正升级成“会看图并推理”。

快速判断这篇论文#

📋 论文概述#

🎯 研究背景#

⚠️ 问题与挑战#

1. 因为视觉信息没有天然的语言化表示，所以 RL 很难直接作用在“正确推理”上#

2. 因为高质量多模态 reasoning 数据稀缺，所以直接 RL 很难触发 DeepSeek-R1 式的“aha moment”#

3. 因为冷启动后的模型容易走向“更长但不更对”的推理，所以单纯延长 CoT 反而会恶化训练#

4. 因为多模态推理的奖励信号更脆弱，所以奖励设计必须足够“硬”#

🔍 核心发现 Finding#

作者明确声称#

我的理解#

🔬 方法#

整体流程#

第一步：构造 200K 的多模态 CoT 冷启动数据#

第二步：冷启动初始化#

第三步：PTST + GRPO 强化学习#

PTST 怎么做#

奖励函数#

📊 实验与结论#

主结果一：7B 模型已经接近顶级闭源视觉推理模型#

主结果二：提升不是单点 benchmark 偶然，而是多个多模态数学基准上都有增益#

主结果三：直接 RL 不行，冷启动 + PTST 才行#

主结果四：后续扩展到更大模型后，收益还在继续#

结论#

🧠 关键术语#

💭 个人评价#

✅ 优点#

⚠️ 局限#

💡 启发#

🔗 相关论文#