多模态学习

快速切换分类

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

多模态学习·2025· ICLR 2026· 已完成· 5/5

Wenxuan Huang, Bohan Jia, Zijie Zhai 等

Vision-R1 研究如何把 DeepSeek-R1 式强化学习迁移到多模态大模型上。作者先通过 modality bridging 构造 200K 的多模态 CoT 冷启动数据，再用 PTST 配合 GRPO 和硬格式结果奖励逐步放开推理长度，最终让 7B 模型在 MathVista 上达到 73.5%，逼近 OpenAI o1 级别的多模态数学推理表现。