论文题目:From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning论文地址: https://arxiv.org/pdf/2601.00215论文详解: https://mp.weixin.qq.com/s/80rmhSJMeviU8SY24jDQNA核心要点:该论文通过设计六种不同的奖励函数,利用强化学习(RL)让多模态大语言模型(MLLMs)在解决视觉难题时,不仅能给出更准确的答案,还能生成更详尽、更有条理的视觉推理过程。关键结论1、视觉感知是 MLLM 在解决视觉谜题时的最大短板。 将图像转为文本能让 Claude 3.5 和 3.7 的准确率分别提升 26.7% 和 23.6%,这证明了问题出在“看”而不是“想”。2、精心设计的奖励函数能有效引导 MLLM 生成更长、更结构化的视觉推理链,而无需依赖昂贵的监督数据。 特别是“Mixture”奖励,能让模型在 RL 训练中自发学会“边看边想”。3、通过奖励驱动的强化学习,模型在视觉感知和推理的两个关键维度上都得到了提升。 不仅改善了对图像的理解,也有效缓解了模型在推理中忽略视觉信息的“空想”问题。