0
| 本文作者: 陈淑瑜 | 2026-04-28 17:16 | 专题:CVPR 计算机视觉与模式识别会议 |
【封面图片来源:网站名中国科学院自动化研究所,所有者:GThinker】
多模态大语言模型(MLLM)在文本推理领域已展现出强大的迭代反思能力,但在涉及复杂视觉场景的推理任务中,依然存在明显缺陷——研究团队将其定义为视觉惯性(Visual Inertia)现象:尽管 MLLM 在文本语境中擅长进行多轮迭代推理并修正错误,但在视觉推理过程中往往不加质疑地依赖最初的视觉解释,即使这种初始解释具有误导性,也很少主动回头重新审视和修正。
这种现象在初始视觉感知可能具有歧义性或误导性的复杂任务中(如视错觉图像、遮挡场景、细粒度属性识别等)导致系统性推理失败。现有 MLLM 缺乏主动触发重新审视关键视觉证据的机制,一旦初始感知出错,后续推理链会沿着错误方向越走越偏。
GThinker 提出了 Cue-Rethinking(线索再思考)机制,赋予 MLLM 主动标记关键视觉线索并在发现不一致时自动触发重审的能力,从根本上缓解视觉惯性问题。
GThinker 的核心是 Cue-Rethinking 机制和配套的两阶段训练框架。
在推理过程中,模型使用 vcues 特殊标签显式标记推理所依赖的关键视觉线索(如图像左上角的红色物体、人物手部的细节等)。初步推理链完成后,系统自动触发反思提示,引导模型逐一回顾所有已标记的视觉线索,检查是否存在解释不一致、错误或遗漏。一旦发现问题,模型会修正对该线索的理解,并基于新理解重新进行推理,形成推理-标记-再思考-修正的闭环。
通过迭代式多模态标注流程构建符合 Cue-Rethinking 模式的高质量推理数据集 GThinker-11k,使用评判引导的选择性训练,专门从失败样本中学习如何识别初始视觉解释的错误并触发再思考。
引入DAPO 强化学习算法,在多场景探索中进一步优化模型在何时触发再思考、如何有效修正视觉解释等策略行为,使再思考机制更加精准高效。

GThinker 在 M3CoT 多模态链式推理基准上取得 81.5% 的领先成绩,在多个多模态推理任务上实现平均 2.1% 的整体提升,量化地证明了视觉再思考机制能显著改善模型在视觉感知易出错场景下的推理质量。
GThinker 是首个明确提出并系统性解决视觉惯性的工作,揭示了现有 MLLM 缺乏视觉自我修正机制这一根本性缺陷。Cue-Rethinking 机制类比于人类在解题时会重新审视题目条件的元认知行为,是计算机视觉与认知科学的交叉创新。
论文提供了完整的 GThinker-11k 多模态推理数据集(含11k条带视觉线索标注的推理轨迹)和可复现的两阶段训练框架,为后续研究提供了宝贵的开源资产,加速了视觉推理增强技术的社区发展。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
原文链接:https://arxiv.org/abs/2026.gthinker
解读来源:https://ia.cas.cn/xwzx/ttxw/202603/t20260317_8160775.html
雷峰网版权文章,未经授权禁止转载。详情见转载须知。