<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>计算机视觉 on Awen's Paper Libarary</title><link>https://a23wen.github.io/paper-libarary/categories/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/</link><description>Recent content in 计算机视觉 on Awen's Paper Libarary</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Mon, 20 Apr 2026 20:22:21 +0800</lastBuildDate><atom:link href="https://a23wen.github.io/paper-libarary/categories/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89/index.xml" rel="self" type="application/rss+xml"/><item><title>CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning</title><link>https://a23wen.github.io/paper-libarary/papers/caprl/</link><pubDate>Mon, 20 Apr 2026 20:20:04 +0800</pubDate><guid>https://a23wen.github.io/paper-libarary/papers/caprl/</guid><description>CapRL 尝试把 RLVR 从有标准答案的任务扩展到开放式 image captioning。它把 caption 质量重新定义成“是否足以支撑一个不看图的 LLM 仅凭 caption 回答图像相关多选题”，并据此设计了解耦两阶段 reward。结果显示，CapRL-3B 在 Prism 评价下逼近 Qwen2.5-VL-72B，还能生成 CapRL-5M 高质量 caption 数据，在 12 个预训练 benchmark 上持续优于 ShareGPT4V-1M 和 DenseFusion-1M。</description></item><item><title>RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning</title><link>https://a23wen.github.io/paper-libarary/papers/rubicap/</link><pubDate>Fri, 17 Apr 2026 18:10:14 +0800</pubDate><guid>https://a23wen.github.io/paper-libarary/papers/rubicap/</guid><description>RubiCap 研究如何把强化学习从有明确 verifier 的任务扩展到开放式 dense image captioning。作者用五个强 VLM 组成 committee 生成候选描述，再让 LLM 针对当前学生模型的失败点合成样本级 rubric，并用 rubric-guided GRPO 优化 captioner。结果显示 RubiCap 在 CapArena 上显著优于 SFT、ROUGE 奖励和 Likert judge 奖励，还能减轻灾难性遗忘，并在 CaptionQA 上以更短描述达到更高信息密度。</description></item><item><title>Deep Residual Learning for Image Recognition</title><link>https://a23wen.github.io/paper-libarary/papers/resnet/</link><pubDate>Sat, 10 Feb 2024 14:30:00 +0800</pubDate><guid>https://a23wen.github.io/paper-libarary/papers/resnet/</guid><description>提出残差学习框架，通过引入跳跃连接解决深度网络退化问题，使得训练超深网络（152 层）成为可能，赢得 ImageNet 2015 冠军。</description></item></channel></rss>