0
| 本文作者: 吴思梦 | 2026-06-16 10:48 | 专题:ICML 2019 |
原文作者:公众号“Today读什么”
原文链接:https://mp.weixin.qq.com/s/BrsWJJAv22qHVa_gfv2cpg
一张照片被压缩、噪声、暗光和模糊破坏后,多模态模型仍然可以写出一段逻辑完整的分析。但分析越流畅,不代表它看到的证据越充分:车头朝向已经模糊,模型仍能解释车辆为何“直行”;公交车轮廓已经重叠,它依然可以自信地数出三辆。
过去的方法通常让视觉编码器适应噪声,或者让模型先用文字分析图像受到了什么破坏。Robust-U1 换了一条路线:**既然关键视觉信息已经丢失,就先生成一张恢复后的图像,再让模型同时查看原图与恢复图完成回答。**方法由图像恢复监督训练、带双重视觉奖励的强化学习,以及双图联合推理组成。实验结果表明,性能提升并不只是来自“生成了一张更好看的图片”,而是恢复出的视觉证据确实帮助模型回答了原本看不清的问题。
Robust-U1 要处理的核心矛盾是:多模态模型可以继续推理,却无法仅凭语言补回已经消失的视觉细节。
视觉鲁棒性研究此前主要沿着两条路线展开。特征对齐方法让干净图像和受损图像在视觉编码空间中尽量接近,能够提高预测稳定性,却很难解释模型究竟恢复了什么信息。Robust-R1 这样的工作把过程显式化,让模型描述压缩、噪声或暗光如何影响画面,再依据描述进行推理。
文字能够提醒模型“这里可能看不清”,却无法重建车辆朝向、物体数量、边缘位置或细小文字。视觉证据已经被破坏时,再长的推理链也可能只是围绕错误观察组织出一段连贯解释。
作者由此提出一个更直接的问题:具备图像生成能力的统一多模态模型,能否自己完成视觉恢复,并把恢复结果作为中间推理证据?这不是在模型前面外挂一个图像修复器,而是让理解、恢复和回答由同一个模型协同完成。
论文中的案例很好地揭示了旧路线的限制。一张严重压缩且光照不足的道路图片里,前方车辆实际向左行驶。Qwen2.5-VL 判断车辆直行;Robust-R1 能识别暗光与压缩问题,也能解释这些退化会遮蔽方向信息,最终仍给出“直行”。
这里缺少的不是对退化类型的认识,而是决定答案的视觉细节。模型知道自己看不清,却没有新的视觉证据可以使用。
基础模型 BAGEL 已经具备图像生成能力,也尝试恢复画面,但生成结果改变了原场景,推理随后被错误恢复图带偏。这又引出第二个问题:**恢复图本身也可能产生幻觉。**如果模型只查看恢复图,修复过程新增的物体、方向或纹理会被当成事实。
Robust-U1 因此没有把恢复图当作唯一输入。原始受损图仍被保留,恢复图负责补充结构和语义,模型在两份视觉证据之间完成判断。这个设计让恢复不再等同于“重画一张图”,而是成为可以被原图约束的中间推理步骤。
Robust-U1 建立在 BAGEL 之上。BAGEL 同时支持多模态理解和图像生成,因此同一套模型既能从受损图片生成恢复图,也能读取两张图片回答问题。
训练过程分成三个连续阶段。
模型先在 ImageNet-C 的 75 万组受损—干净图像对上进行监督微调。受损图像被编码为条件,干净图像进入 rectified flow 的去噪目标,生成模块由此学习近似的退化逆过程。经过这一阶段,模型已经会去除主要噪声和模糊,但恢复结果仍容易缺少细节,或在语义上偏离原图。
接下来的强化学习不直接奖励最终问答正确率,而是约束恢复图本身。像素结构奖励采用 SSIM,检查局部亮度、对比度和结构是否接近干净图;语义一致性奖励通过冻结的 CLIP 比较两张图的表示,避免画面看起来清晰,却把对象、颜色或场景恢复错。
这两个奖励承担的职责并不相同。SSIM 更关心轮廓、边缘和局部结构,CLIP 奖励更关心“画面讲的是不是同一件事”。只有像素约束,模型可能生成清晰但语义错误的图;只强调语义,又可能忽略回答计数、方向和文字问题所需的精细结构。
恢复能力稳定后,模型进入双图推理训练。输入按“受损图—恢复图—问题”的方式交错组织,并配合推理链与答案进行下一词预测。模型由此学会以恢复图作为主要观察,同时回看受损图,检查恢复过程中可能出现的歧义。
Robust-U1 的整体逻辑可以概括为:
先恢复可用的视觉证据,再让原图和恢复图互相校验,最后完成语言推理。

画面描述:左侧是受损图与干净图的特征对齐,中间是用文字描述退化影响,右侧的 Robust-U1 会直接生成恢复图,并把它加入多模态推理。
深度解读:这张图划分的不是三个实现模块,而是三种不同的处理层级。特征对齐调整内部表示,文字推理解释损坏,视觉自恢复则尝试重新提供任务所缺少的证据。Robust-U1 的提升来自信息层级发生了变化:模型不再只学习如何容忍受损视觉,而是主动重建可供判断的内容。

画面描述:生成模块先通过监督训练学习恢复,再通过 Flow-GRPO 接受像素和语义奖励,随后理解模块与生成模块共同学习双图推理。
深度解读:三阶段没有被合并成一个端到端目标,是因为它们处理的是不同风险。监督训练解决“能不能恢复”,强化学习解决“恢复得是否可信”,联合推理解决“模型会不会使用恢复结果”。直接训练问答,模型可能绕过恢复分支;只训练恢复,又不能保证恢复内容对下游问题有用。

画面描述:图中依次展示受损输入、原始 BAGEL、监督微调、单独使用像素奖励、单独使用语义奖励、完整模型和干净真值。
深度解读:监督微调已经能去掉大量退化,但画面细节仍然松散;像素奖励强化边缘和局部结构,语义奖励改善纹理与内容一致性,完整模型在两者之间取得较稳定的平衡。表 5 也对应这一变化:PSNR 从 BAGEL 的 14.37 提高到 21.49,SSIM 从 0.4722 提高到 0.6314,LPIPS 从 0.5092 降至 0.3223。
R-Bench 同时包含选择题、开放式视觉问答和图像描述,并按照退化程度分为低、中、高三个等级。Robust-U1 的综合得分为 0.7398,明显高于基础模型 BAGEL 的 0.5770,以及文本推理方法 Robust-R1 的 0.5017。图像描述任务上的差距尤其明显,说明恢复图提供的不只是分类线索,也补充了场景级内容。
在 MMMB、MMStar 和 RealWorldQA 的人工退化实验中,优势随着破坏程度增加仍然存在。MMMB 从干净图到 100% 退化时,Robust-U1 只下降 1.57 分;BAGEL 下降 3.44 分,Robust-R1 下降 6.06 分。
消融结果把性能来源拆得更清楚。取消双图推理后,R-Bench 综合分从 0.7398 降至 0.6623,说明恢复图必须真正进入推理过程。移除像素奖励或语义奖励,得分分别降到 0.7257 和 0.7236;高强度退化下,缺少语义奖励的损失更明显,因为模型更容易生成外观合理、内容错误的恢复图。
外接图像修复器也没有得到同样效果。由专用恢复模型预处理、再交给 Qwen2.5-VL-7B 的方案,最高综合分只有 0.5511。修复模型通常针对单一退化类型优化,而且追求感知质量,不一定保留问答所需的视觉证据。
Robust-U1 把多模态推理的中间过程从纯文本扩展到了视觉空间。过去的思路是让模型对着坏图“想得更仔细”,现在则允许模型先生成一份可以检查的视觉假设,再依据原图和恢复图回答。
这种方式对暗光驾驶、遥感、监控和医学影像很有吸引力,因为这些任务的错误经常来自感知信息缺失,而不是语言推理不足。恢复图还提供了一种可观察的中间结果:系统可以直接查看模型依据了什么视觉内容,而不是只能分析隐藏特征。
边界也很清楚。恢复不是找回被物理删除的信息,而是依据训练分布进行估计,仍有生成错误的可能。论文报告恢复前后答案一致率为 92.3%,说明语义奖励压低了幻觉风险,却没有消除它。训练成本同样不低,仅恢复监督阶段就使用了 1920 个 L20 GPU 小时;推理时额外生成图像,也会增加延迟。
此外,完整训练依赖成对的受损—干净图片。无干净参考的语义奖励能够改善结果,但综合分只有 0.6233,仍明显低于完整方法。当前实验集中在静态图片,视频中的时间一致性、未知真实退化和高风险场景下的错误校准仍需继续验证。
1. TeCoA
2023|视觉语言鲁棒对齐
通过对抗训练使干净与扰动图像的视觉表示更接近,改善局部攻击下的稳定性。
2. R-Bench: Are Your Large Multimodal Models Robust to Real-World Corruptions?
2024|IEEE JSTSP
系统评测噪声、压缩、暗光等真实退化对多模态模型的影响,让视觉退化成为独立的评测问题。
3. Robust CLIP
2024|视觉编码器鲁棒化
在 CLIP 表示层提高对扰动的抵抗能力,但恢复过程仍然隐藏在特征空间中。
4. Robust LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for MLLMs
2025|ICCV Workshops
将鲁棒视觉编码器接入多模态模型,研究视觉前端的抗扰动能力能否传递到语言理解。
5. Thinking with Generated Images
2025|视觉辅助推理
开始让模型生成辅助图像参与思考,视觉内容从输入模态变成了中间推理载体。
6. Robust-R1
2026|文本化退化推理
显式识别退化类型及其语义影响,提高可解释性,但中间过程仍然无法补充像素证据。
7. Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?
2026|ICML
把图像恢复纳入统一多模态模型的推理链,用像素—语义双奖励约束恢复结果,再联合原图完成判断。
Robust-U1 不是把传统图像修复模型接到多模态模型前面。它重新安排了受损视觉理解的顺序:当输入证据不足时,模型先生成恢复图,再把恢复结果与原始输入共同纳入推理。
实验支持了这条路线,但也提醒我们,生成出来的清晰画面并不自动等于可靠证据。像素结构、语义一致性和原图校验缺少任何一项,恢复过程都可能把模型从“看不清”带到“看错了”。
它提出的是一个方向性变化:多模态模型面对受损输入时,不必永远被动适应,也可以主动重建视觉证据;而这份证据必须接受约束和交叉检查,才能进入最终判断。
雷峰网(公众号:雷峰网)