ICML 2026：视觉自恢复 + 双奖励强化学习，提升受损图像理解

本文作者：吴思梦

2026-06-16 10:48

专题：ICML 2019

导语：一张照片被压缩、噪声、暗光和模糊破坏后，多模态模型仍然可以写出一段逻辑完整的分析。但分析越流畅，不代表它看到的证据越充分：车头朝向已经模糊，模型仍能解释车辆为何

原文作者：公众号“Today读什么”

原文链接：https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg

一张照片被压缩、噪声、暗光和模糊破坏后，多模态模型仍然可以写出一段逻辑完整的分析。但分析越流畅，不代表它看到的证据越充分：车头朝向已经模糊，模型仍能解释车辆为何“直行”；公交车轮廓已经重叠，它依然可以自信地数出三辆。

过去的方法通常让视觉编码器适应噪声，或者让模型先用文字分析图像受到了什么破坏。Robust-U1 换了一条路线：**既然关键视觉信息已经丢失，就先生成一张恢复后的图像，再让模型同时查看原图与恢复图完成回答。**方法由图像恢复监督训练、带双重视觉奖励的强化学习，以及双图联合推理组成。实验结果表明，性能提升并不只是来自“生成了一张更好看的图片”，而是恢复出的视觉证据确实帮助模型回答了原本看不清的问题。

Motivation

Robust-U1 要处理的核心矛盾是：多模态模型可以继续推理，却无法仅凭语言补回已经消失的视觉细节。

视觉鲁棒性研究此前主要沿着两条路线展开。特征对齐方法让干净图像和受损图像在视觉编码空间中尽量接近，能够提高预测稳定性，却很难解释模型究竟恢复了什么信息。Robust-R1 这样的工作把过程显式化，让模型描述压缩、噪声或暗光如何影响画面，再依据描述进行推理。

文字能够提醒模型“这里可能看不清”，却无法重建车辆朝向、物体数量、边缘位置或细小文字。视觉证据已经被破坏时，再长的推理链也可能只是围绕错误观察组织出一段连贯解释。

作者由此提出一个更直接的问题：具备图像生成能力的统一多模态模型，能否自己完成视觉恢复，并把恢复结果作为中间推理证据？这不是在模型前面外挂一个图像修复器，而是让理解、恢复和回答由同一个模型协同完成。

现象剖析：推理补不回像素

论文中的案例很好地揭示了旧路线的限制。一张严重压缩且光照不足的道路图片里，前方车辆实际向左行驶。Qwen2.5-VL 判断车辆直行；Robust-R1 能识别暗光与压缩问题，也能解释这些退化会遮蔽方向信息，最终仍给出“直行”。

这里缺少的不是对退化类型的认识，而是决定答案的视觉细节。模型知道自己看不清，却没有新的视觉证据可以使用。

基础模型 BAGEL 已经具备图像生成能力，也尝试恢复画面，但生成结果改变了原场景，推理随后被错误恢复图带偏。这又引出第二个问题：**恢复图本身也可能产生幻觉。**如果模型只查看恢复图，修复过程新增的物体、方向或纹理会被当成事实。

Robust-U1 因此没有把恢复图当作唯一输入。原始受损图仍被保留，恢复图负责补充结构和语义，模型在两份视觉证据之间完成判断。这个设计让恢复不再等同于“重画一张图”，而是成为可以被原图约束的中间推理步骤。

核心解读：恢复之后再理解

Robust-U1 建立在 BAGEL 之上。BAGEL 同时支持多模态理解和图像生成，因此同一套模型既能从受损图片生成恢复图，也能读取两张图片回答问题。

训练过程分成三个连续阶段。

模型先在 ImageNet-C 的 75 万组受损—干净图像对上进行监督微调。受损图像被编码为条件，干净图像进入 rectified flow 的去噪目标，生成模块由此学习近似的退化逆过程。经过这一阶段，模型已经会去除主要噪声和模糊，但恢复结果仍容易缺少细节，或在语义上偏离原图。

接下来的强化学习不直接奖励最终问答正确率，而是约束恢复图本身。像素结构奖励采用 SSIM，检查局部亮度、对比度和结构是否接近干净图；语义一致性奖励通过冻结的 CLIP 比较两张图的表示，避免画面看起来清晰，却把对象、颜色或场景恢复错。

这两个奖励承担的职责并不相同。SSIM 更关心轮廓、边缘和局部结构，CLIP 奖励更关心“画面讲的是不是同一件事”。只有像素约束，模型可能生成清晰但语义错误的图；只强调语义，又可能忽略回答计数、方向和文字问题所需的精细结构。

恢复能力稳定后，模型进入双图推理训练。输入按“受损图—恢复图—问题”的方式交错组织，并配合推理链与答案进行下一词预测。模型由此学会以恢复图作为主要观察，同时回看受损图，检查恢复过程中可能出现的歧义。

Robust-U1 的整体逻辑可以概括为：

先恢复可用的视觉证据，再让原图和恢复图互相校验，最后完成语言推理。

图表深度解读

图1：三种视觉鲁棒性路线

画面描述：左侧是受损图与干净图的特征对齐，中间是用文字描述退化影响，右侧的 Robust-U1 会直接生成恢复图，并把它加入多模态推理。

深度解读：这张图划分的不是三个实现模块，而是三种不同的处理层级。特征对齐调整内部表示，文字推理解释损坏，视觉自恢复则尝试重新提供任务所缺少的证据。Robust-U1 的提升来自信息层级发生了变化：模型不再只学习如何容忍受损视觉，而是主动重建可供判断的内容。

图2：三阶段训练流程

画面描述：生成模块先通过监督训练学习恢复，再通过 Flow-GRPO 接受像素和语义奖励，随后理解模块与生成模块共同学习双图推理。

深度解读：三阶段没有被合并成一个端到端目标，是因为它们处理的是不同风险。监督训练解决“能不能恢复”，强化学习解决“恢复得是否可信”，联合推理解决“模型会不会使用恢复结果”。直接训练问答，模型可能绕过恢复分支；只训练恢复，又不能保证恢复内容对下游问题有用。

图3：恢复质量的逐步变化

画面描述：图中依次展示受损输入、原始 BAGEL、监督微调、单独使用像素奖励、单独使用语义奖励、完整模型和干净真值。

深度解读：监督微调已经能去掉大量退化，但画面细节仍然松散；像素奖励强化边缘和局部结构，语义奖励改善纹理与内容一致性，完整模型在两者之间取得较稳定的平衡。表 5 也对应这一变化：PSNR 从 BAGEL 的 14.37 提高到 21.49，SSIM 从 0.4722 提高到 0.6314，LPIPS 从 0.5092 降至 0.3223。

实验结果说明了什么？

R-Bench 同时包含选择题、开放式视觉问答和图像描述，并按照退化程度分为低、中、高三个等级。Robust-U1 的综合得分为 0.7398，明显高于基础模型 BAGEL 的 0.5770，以及文本推理方法 Robust-R1 的 0.5017。图像描述任务上的差距尤其明显，说明恢复图提供的不只是分类线索，也补充了场景级内容。

在 MMMB、MMStar 和 RealWorldQA 的人工退化实验中，优势随着破坏程度增加仍然存在。MMMB 从干净图到 100% 退化时，Robust-U1 只下降 1.57 分；BAGEL 下降 3.44 分，Robust-R1 下降 6.06 分。

消融结果把性能来源拆得更清楚。取消双图推理后，R-Bench 综合分从 0.7398 降至 0.6623，说明恢复图必须真正进入推理过程。移除像素奖励或语义奖励，得分分别降到 0.7257 和 0.7236；高强度退化下，缺少语义奖励的损失更明显，因为模型更容易生成外观合理、内容错误的恢复图。

外接图像修复器也没有得到同样效果。由专用恢复模型预处理、再交给 Qwen2.5-VL-7B 的方案，最高综合分只有 0.5511。修复模型通常针对单一退化类型优化，而且追求感知质量，不一定保留问答所需的视觉证据。

为什么这篇工作值得关注？

Robust-U1 把多模态推理的中间过程从纯文本扩展到了视觉空间。过去的思路是让模型对着坏图“想得更仔细”，现在则允许模型先生成一份可以检查的视觉假设，再依据原图和恢复图回答。

这种方式对暗光驾驶、遥感、监控和医学影像很有吸引力，因为这些任务的错误经常来自感知信息缺失，而不是语言推理不足。恢复图还提供了一种可观察的中间结果：系统可以直接查看模型依据了什么视觉内容，而不是只能分析隐藏特征。

边界也很清楚。恢复不是找回被物理删除的信息，而是依据训练分布进行估计，仍有生成错误的可能。论文报告恢复前后答案一致率为 92.3%，说明语义奖励压低了幻觉风险，却没有消除它。训练成本同样不低，仅恢复监督阶段就使用了 1920 个 L20 GPU 小时；推理时额外生成图像，也会增加延迟。

此外，完整训练依赖成对的受损—干净图片。无干净参考的语义奖励能够改善结果，但综合分只有 0.6233，仍明显低于完整方法。当前实验集中在静态图片，视频中的时间一致性、未知真实退化和高风险场景下的错误校准仍需继续验证。

研究脉络：从抵抗退化到恢复证据

1. TeCoA

2023｜视觉语言鲁棒对齐

通过对抗训练使干净与扰动图像的视觉表示更接近，改善局部攻击下的稳定性。

2. R-Bench: Are Your Large Multimodal Models Robust to Real-World Corruptions?

2024｜IEEE JSTSP

系统评测噪声、压缩、暗光等真实退化对多模态模型的影响，让视觉退化成为独立的评测问题。

3. Robust CLIP

2024｜视觉编码器鲁棒化

在 CLIP 表示层提高对扰动的抵抗能力，但恢复过程仍然隐藏在特征空间中。

4. Robust LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for MLLMs

2025｜ICCV Workshops

将鲁棒视觉编码器接入多模态模型，研究视觉前端的抗扰动能力能否传递到语言理解。

5. Thinking with Generated Images

2025｜视觉辅助推理

开始让模型生成辅助图像参与思考，视觉内容从输入模态变成了中间推理载体。

6. Robust-R1

2026｜文本化退化推理

显式识别退化类型及其语义影响，提高可解释性，但中间过程仍然无法补充像素证据。

7. Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

2026｜ICML

把图像恢复纳入统一多模态模型的推理链，用像素—语义双奖励约束恢复结果，再联合原图完成判断。

总结一下

Robust-U1 不是把传统图像修复模型接到多模态模型前面。它重新安排了受损视觉理解的顺序：当输入证据不足时，模型先生成恢复图，再把恢复结果与原始输入共同纳入推理。

实验支持了这条路线，但也提醒我们，生成出来的清晰画面并不自动等于可靠证据。像素结构、语义一致性和原图校验缺少任何一项，恢复过程都可能把模型从“看不清”带到“看错了”。

它提出的是一个方向性变化：多模态模型面对受损输入时，不必永远被动适应，也可以主动重建视觉证据；而这份证据必须接受约束和交叉检查，才能进入最终判断。

• 论文题目：Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

雷峰网(公众号：雷峰网)

0人收藏

专题

ICML 2019

本专题其他文章

吴思梦

编辑

发私信

当月热门文章