GThinker——线索引导再思考，解决多模态大模型的视觉惯性问题 | CVPR 2026

本文作者：陈淑瑜

2026-04-28 17:16

导语：GThinker 提出了 Cue-Rethinking（线索再思考）机制，赋予 MLLM 主动标记关键视觉线索并在发现不一致时自动触发重审的能力，从根本上缓解视

【封面图片来源：网站名中国科学院自动化研究所，所有者：GThinker】

一、研究背景

多模态大语言模型（MLLM）在文本推理领域已展现出强大的迭代反思能力，但在涉及复杂视觉场景的推理任务中，依然存在明显缺陷——研究团队将其定义为视觉惯性（Visual Inertia）现象：尽管 MLLM 在文本语境中擅长进行多轮迭代推理并修正错误，但在视觉推理过程中往往不加质疑地依赖最初的视觉解释，即使这种初始解释具有误导性，也很少主动回头重新审视和修正。

这种现象在初始视觉感知可能具有歧义性或误导性的复杂任务中（如视错觉图像、遮挡场景、细粒度属性识别等）导致系统性推理失败。现有 MLLM 缺乏主动触发重新审视关键视觉证据的机制，一旦初始感知出错，后续推理链会沿着错误方向越走越偏。

GThinker 提出了 Cue-Rethinking（线索再思考）机制，赋予 MLLM 主动标记关键视觉线索并在发现不一致时自动触发重审的能力，从根本上缓解视觉惯性问题。

二、核心方法

GThinker 的核心是 Cue-Rethinking 机制和配套的两阶段训练框架。

Cue-Rethinking 机制：

在推理过程中，模型使用 vcues 特殊标签显式标记推理所依赖的关键视觉线索（如图像左上角的红色物体、人物手部的细节等）。初步推理链完成后，系统自动触发反思提示，引导模型逐一回顾所有已标记的视觉线索，检查是否存在解释不一致、错误或遗漏。一旦发现问题，模型会修正对该线索的理解，并基于新理解重新进行推理，形成推理-标记-再思考-修正的闭环。