您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

GThinker——线索引导再思考,解决多模态大模型的视觉惯性问题 | CVPR 2026

本文作者: 陈淑瑜   2026-04-28 17:16 专题:CVPR 计算机视觉与模式识别会议
导语:GThinker 提出了 Cue-Rethinking(线索再思考)机制,赋予 MLLM 主动标记关键视觉线索并在发现不一致时自动触发重审的能力,从根本上缓解视

【封面图片来源:网站名中国科学院自动化研究所,所有者:GThinker】

一、研究背景 

多模态大语言模型(MLLM)在文本推理领域已展现出强大的迭代反思能力,但在涉及复杂视觉场景的推理任务中,依然存在明显缺陷——研究团队将其定义为视觉惯性(Visual Inertia)现象:尽管 MLLM 在文本语境中擅长进行多轮迭代推理并修正错误,但在视觉推理过程中往往不加质疑地依赖最初的视觉解释,即使这种初始解释具有误导性,也很少主动回头重新审视和修正。

这种现象在初始视觉感知可能具有歧义性或误导性的复杂任务中(如视错觉图像、遮挡场景、细粒度属性识别等)导致系统性推理失败。现有 MLLM 缺乏主动触发重新审视关键视觉证据的机制,一旦初始感知出错,后续推理链会沿着错误方向越走越偏。

GThinker 提出了 Cue-Rethinking(线索再思考)机制,赋予 MLLM 主动标记关键视觉线索并在发现不一致时自动触发重审的能力,从根本上缓解视觉惯性问题。

二、核心方法

GThinker 的核心是 Cue-Rethinking 机制和配套的两阶段训练框架。

Cue-Rethinking 机制:

在推理过程中,模型使用 vcues 特殊标签显式标记推理所依赖的关键视觉线索(如图像左上角的红色物体、人物手部的细节等)。初步推理链完成后,系统自动触发反思提示,引导模型逐一回顾所有已标记的视觉线索,检查是否存在解释不一致、错误或遗漏。一旦发现问题,模型会修正对该线索的理解,并基于新理解重新进行推理,形成推理-标记-再思考-修正的闭环。

第一阶段:模式引导冷启动

通过迭代式多模态标注流程构建符合 Cue-Rethinking 模式的高质量推理数据集 GThinker-11k,使用评判引导的选择性训练,专门从失败样本中学习如何识别初始视觉解释的错误并触发再思考。

第二阶段:激励式强化学习

引入DAPO 强化学习算法,在多场景探索中进一步优化模型在何时触发再思考、如何有效修正视觉解释等策略行为,使再思考机制更加精准高效。

 GThinker——线索引导再思考,解决多模态大模型的视觉惯性问题 | CVPR 2026

 三、亮点总结  

亮点一:M3CoT基准达到81.5%,验证视觉再思考的价值

GThinker 在 M3CoT 多模态链式推理基准上取得 81.5% 的领先成绩,在多个多模态推理任务上实现平均 2.1% 的整体提升,量化地证明了视觉再思考机制能显著改善模型在视觉感知易出错场景下的推理质量。

亮点二:首次系统性定义并解决视觉惯性问题

GThinker 是首个明确提出并系统性解决视觉惯性的工作,揭示了现有 MLLM 缺乏视觉自我修正机制这一根本性缺陷。Cue-Rethinking 机制类比于人类在解题时会重新审视题目条件的元认知行为,是计算机视觉与认知科学的交叉创新。

亮点三:GThinker-11k 数据集与可复现的训练范式

论文提供了完整的 GThinker-11k 多模态推理数据集(含11k条带视觉线索标注的推理轨迹)和可复现的两阶段训练框架,为后续研究提供了宝贵的开源资产,加速了视觉推理增强技术的社区发展。

──────────────────────────────────────────

 上述内容包含AI辅助生成,更详细信息参见两个链接

原文链接:https://arxiv.org/abs/2026.gthinker

解读来源:https://ia.cas.cn/xwzx/ttxw/202603/t20260317_8160775.html

 


雷峰网版权文章,未经授权禁止转载。详情见转载须知

 GThinker——线索引导再思考,解决多模态大模型的视觉惯性问题 | CVPR 2026

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说