0
| 本文作者: 陈淑瑜 | 2026-06-02 18:11 |
来源:微信公众号“PRML Research Group”
原文链接:https://mp.weixin.qq.com/s/1X6ZZzoZx3lyoxQuzYfwdg?scene=1&click_id=38
1.引言
近年来,多模态大语言模型在图像理解、视觉问答和视觉推理任务中取得了显著进展。然而,在真实场景中,图像往往并不会把完整故事全部呈现出来。一张静态图片可能只展示了事件发生的某一个瞬间,而真正回答问题所需的信息,可能隐藏在图片发生之前、之后,或者需要结合常识进行补全。
例如,当模型看到一个人穿着睡袍站在卧室里时,它可以较容易判断出“他可能准备睡觉”。这是因为图像中已经包含了足够的视觉线索:床、卧室、睡衣等。但如果图像只展示一个人落水、船只倾斜、周围有水花,模型可能会简单根据“水”这一表面线索回答“人在水里”。然而,人类可能会进一步结合常识推断:这个人可能在一艘正在下沉的船上,处于危险情境中。

图 1 视觉推理的挑战:充分 vs. 不充分的视觉叙事。
这类问题的核心在于:
图像中的视觉叙事并不总是充分的。模型不仅需要识别图像中有什么,还需要推断图像背后可能发生了什么。
针对这一问题,我们提出了 CoVCR,一个面向视觉常识推理的上下文增强框架。它的目标是让模型在视觉信息不足或语义不完整的情况下,能够生成并利用合理的上下文线索,从而做出更加稳健、可信的推理。
2.方法
CoVCR 的核心思想是:为图像生成合理的上下文,让模型根据这些上下文进行推理。整体框架包含两个阶段:(1)视觉上下文生成学习阶段;(2)视觉推理微调阶段。

图 2 CoVCR 框架。在第一阶段,视觉上下文生成模型会生成上下文描述,从静态图像中推断出合理的内部和外部线索。在第二阶段,一个融合上下文的适配器会将这些上下文线索与视觉特征有选择地整合,以进行鲁棒的多模态推理。
2.1 第一阶段:视觉上下文生成学习
在第一阶段,CoVCR 训练一个视觉上下文生成模型,用于从静态图像中生成两类上下文信息:
(1)内部上下文:当前正在发生什么?
内部上下文关注图像内部已经出现的事件和关系,例如:谁在做什么;物体之间有什么关系;当前场景中正在发生什么动作等。这类信息可以帮助模型更准确理解当前画面。
(2)外部上下文:之前发生了什么,之后可能发生什么?
外部上下文关注图像之外的时间线索,包括:这个场景之前可能发生了什么;当前事件为什么会发生;接下来可能会发生什么。这类信息可以帮助模型补足静态图像中缺失的叙事信息。
在训练过程中,模型使用 VisualCOMET 数据集学习如何根据图像生成合理的事件上下文。为了提高训练效率,图像编码器和大语言模型主体保持冻结,仅训练 Q-Former 模块,使其学会从图像中抽取有用的上下文线索。
2.2 第二阶段:视觉推理微调
在第二阶段,CoVCR 会将第一阶段生成的上下文用于下游视觉推理任务。具体来说,模型会同时利用三类信息:图像视觉特征;问题文本;生成的内部上下文和外部上下文。
为了避免直接拼接大量上下文导致噪声增加,CoVCR 设计了一个 context-infused adapter,用于动态筛选和融合上下文信息。该模块主要包含三个部分:
(1)Context Extractor:从上下文中提取与图像相关的信息
由于上下文文本并不是全部都有用,因此,CoVCR 使用 cross-attention 机制,让内部上下文和外部上下文分别与图像特征进行交互,从而提取与视觉内容相关的上下文表示。
(2)Dynamic Gating:动态判断该相信哪类上下文
不同问题对上下文的需求不同。有的问题主要依赖当前画面即可回答,更需要内部上下文;有的问题需要推断过去或未来事件,更需要外部上下文。
因此,CoVCR 设计了动态门控机制,根据图像和问题自动分配内部上下文与外部上下文的权重。
(3)Resampler Decoder:压缩上下文,保留关键信息
生成的上下文可能比较长,如果全部输入大语言模型,会增加计算成本,也可能引入冗余信息。因此,CoVCR 使用 resampler decoder 将上下文压缩为固定长度的 cue embeddings。这些压缩后的上下文表示再与视觉特征、问题文本一起输入大语言模型,最终生成答案。
3.实验结果
3.1定量分析
我们在多个推理和问答任务上验证了 CoVCR 的效果。

表 1 在VCR验证集上的评估结果

表 2 在VisualCOMET验证集上的评估结果
结果表明,相比现有方法以及 Qwen2.5-VL、mPLUG-Owl3、EventLens 等强基线方法,CoVCR 在综合推理任务 Q→AR 上提升尤为明显。这说明生成并融合上下文对于复杂视觉常识推理尤其重要。其次,CIDEr 和 METEOR 的提升说明,CoVCR 生成的上下文不仅在文字重合度上更好,也在语义丰富性和表达合理性上更优。
3.2 定性分析
在定性分析中,CoVCR 能够为静态图像生成关于过去、当前和未来事件的合理的描述。

图 3 案例分析
如图所示,对于一个会议场景,模型不仅联想到人物正在展示文件,还能推断此前可能进行了讨论,之后可能会根据文件内容采取行动。对于一个调查板场景,模型不仅看到照片和资料板,还能推断人物可能在调查某个嫌疑人,并进一步根据线索展开行动。这些案例说明,CoVCR 能够帮助模型建立更完整的事件链条,从而缓解静态图像中视觉叙事不足的问题。
论文信息及下载地址如下:
CoVCR: Bridging Visual Narrative Gaps via Context Generation for Robust Commonsense Reasoning
Xinyu Li, Shiliang Sun
CVPR Findings
https://openaccess.thecvf.com/content/CVPR2026F/papers/Li_CoVCR_Bridging_Visual_Narrative_Gaps_via_Context_Generation_for_Robust_CVPRF_2026_paper.pdf