多模态学习 on Awen's Paper Libarary

多模态学习 on Awen's Paper Libararyhttps://a23wen.github.io/paper-libarary/categories/%E5%A4%9A%E6%A8%A1%E6%80%81%E5%AD%A6%E4%B9%A0/Recent content in 多模态学习 on Awen's Paper LibararyHugozh-cnMon, 13 Apr 2026 00:24:23 +0800Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Modelshttps://a23wen.github.io/paper-libarary/papers/vision-r1/Mon, 13 Apr 2026 00:21:57 +0800https://a23wen.github.io/paper-libarary/papers/vision-r1/Vision-R1 研究如何把 DeepSeek-R1 式强化学习迁移到多模态大模型上。作者先通过 modality bridging 构造 200K 的多模态 CoT 冷启动数据，再用 PTST 配合 GRPO 和硬格式结果奖励逐步放开推理长度，最终让 7B 模型在 MathVista 上达到 73.5%，逼近 OpenAI o1 级别的多模态数学推理表现。