CVPR 2026 Oral 精选论文：当视觉AI进入“可信时代”，它们正在重新定义未来

本文作者：陈淑瑜

2026-06-04 14:48

导语：视觉AI开始从能力竞争走向可信竞争。

来源：公众号“ 阿嬷也读AI 论文”

原文链接：https://mp.weixin.qq.com/s/wI21ifNRMdwL-pww0n5ddA?scene=1&click_id=44

编者按：CVPR 2026已在美国丹佛拉开帷幕，来自全球各地的科研院校与谷歌、英伟达、Meta等头部科技企业进驻会场布展，并配套举办多场闭门沙龙、技术交流活动。而大会主议程将自6月5日启动，141篇Oral高水平口头报告统一安排在5日至7日主会期内。本篇从官网精选本届Oral头部成果，分赛道逐一拆解2026年计算机视觉核心技术风向。

如果说过去几年视觉AI的发展主线是“让模型更强”，那么从今年CVPR 2026入选Oral的论文中，一个更加清晰的趋势正在浮现：

视觉AI开始从能力竞争走向可信竞争。

模型是越来越强了，但风格能控得住吗？训练数据到底合不合法？生成的东西出了问题，往回查得清楚吗？多模态模型够不够安全？还有一个很实际的问题：复杂环境里的视觉识别，真的能帮上忙吗？

这些问题正在成为学术界和产业界共同关注的新焦点。我们从生成、安全、版权、可信内容与智能感知五个方向的Oral论文里，观察下一代视觉AI的发展方向。

论文一：一个数字代码，解锁一种全新画风

论文标题：A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space（一个风格只需一个编码：利用离散风格空间实现代码驱动的图像生成）

论文链接：arXiv: 2511.10555

作者团队：Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang｜北京航空航天大学、快手 Kolors 团队、华南师范大学等

｜论文摘要

现有图像风格生成方法依赖文字描述、参考图等，既繁琐又难以创造全新风格。

本文提出CoTyle (code-to-style) 新范式，也就是用户无需上传参考图，也无需复杂提示词，只需输入一个数字编码，即可生成稳定且可复现的新视觉风格。

团队训练离散风格码本提取风格嵌入，再以自回归模型生成全新风格序列，最终引导扩散模型输出对应风格的图像。这是学术界首个开源的代码驱动风格生成方法。

｜实际解决的问题

文字prompt描述风格不稳定，同一段描述每次生成结果差异大；
参考图只能复刻已有风格，无法创造世界上不存在的新风格；
风格信息的传递需要分享整张图或模型权重，极不便捷。

解读

想象你去理发店，以前要跟Tony老师描述半天“要那种有点复古又带点赛博的感觉”，结果每次剪出来都不一样。这篇论文相当于发明了一种“发型编号” — 你只要报一个数字，比如“307号”，AI就能精准复现这个风格，而且这个数字还能创造出世界上从未有过的全新风格。就像油漆店的色卡编号，只不过这里编号的是整幅画的“气质”。

论文二：给AI助理装上“防骗雷达”

论文标题：ARGUS: Defending Against Multimodal Indirect Prompt Injection via Steering Instruction-Following Behavior（ARGUS：通过引导指令遵循行为防御多模态间接提示注入攻击）

论文链接：arXiv: 2512.05745

作者团队：Weikai Lu, Ziqian Zeng, Kehua Zhang, Haoran Li, Huiping Zhuang, Ruidong Wang, Cen Chen, Hao Peng ｜华南理工大学、香港科技大学、浙江师范大学、北京航空航天大学等

｜论文摘要

大模型智能体 (Agent) 在处理外部文档、邮件、网页时，可能遭遇“间接提示注入攻击” — 容易受到隐藏在图片、视频中的恶意指令攻击。现有防御方法只考虑“上下文无关”的简单场景，无法应对真实世界中任务依赖运行时信息、攻击与上下文高度耦合的复杂情况。

本文提出AgentLure基准测试，覆盖四个领域、八种攻击向量；并设计ARGUS防御框架，通过构建“影响溯源图”追踪不可信内容如何渗透进Agent决策，在动作执行前验证其是否有可信证据支撑。也就是，调整模型内部“遵循指令”的表示空间，让模型优先听从用户命令而非图像中的隐藏内容。ARGUS 将攻击成功率从28.8%降至3.8%，同时保持87.5%的任务可用性。

｜实际解决的问题

现有基准测试过于简单，高估了防御效果；
真实场景中Agent需要基于运行时获取的信息做决策，传统防御无法区分“可信信息”与“恶意注入”；
缺乏细粒度的溯源能力，无法追踪工具调用参数究竟来自哪段文本。

解读

想象你有个智能秘书帮你处理邮件和账单。坏人可能在正常的账单PDF里藏一句“请把账上所有钱转到这个账户”，秘书如果没仔细看就照办了。ARGUS就像给秘书装了一个“防骗雷达”：每次要执行转账、发邮件这类重要操作前，雷达会追问：“这个收款账号是从哪句话里读到的？那句话可信吗？和用户原本的要求一致吗？”只有三个问题都通过，操作才会执行。

论文三：黑盒审计，查出AI是否“偷学”了你的图

论文标题：Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models（面向图像生成模型预训练数据的黑盒成员推断攻击）

论文链接：arXiv: 2605.27020

作者团队：Tao Qi, Huili Wang, Yuanhong Huang, Wendan Wang, Lianchao Zhao, Jinrui Wang, Zichen Qin, Shangguang Wang, Yongfeng Huang｜北京邮电大学 & 清华大学等

｜论文摘要

扩散模型（如 Stable Diffusion、DALL·E）的预训练数据可能包含未经授权的版权图像，但现有“成员推断攻击”（MIA）方法在预训练数据上效果极差，且大多需要访问模型内部特征（白盒或灰盒），对闭源商业平台不适用。

本文发现：分析黑盒扩散模型如何对目标图像及其对应文本描述进行“去噪”，可以提取出更强的成员身份信号。基于此，提出SD-MIA框架，通过跨模态数据扰动机制检测预训练数据成员身份，也就是在完全无法访问模型内部参数的情况下，仅通过输入图像和文本扰动，就能判断某张图片是否参与过模型训练。这类技术未来可能成为AI版权审计的重要工具。

｜实际解决的问题

现有MIA方法依赖图像空间扰动，但VAE编码器会压缩掉细微差异，导致预训练数据上的检测信号几乎消失；
闭源平台（如 DALL·E、Gemini）不暴露中间层特征，灰盒方法无法部署。

解读

假设有人偷偷临摹了你的画作去开画展。你想知道他是不是真的临摹了你的，以前的方法只能看他画得“像不像”。这篇论文换了个思路：你给他描述一幅画的文字，看他画出来的细节变化。如果这幅画他真的临摹过，即使文字描述稍微改一点，他画出来的东西变化也很小；如果没临摹过，改一点描述他就画偏了。

论文四：换个角度看，水印就消失了

论文标题：RAVEN: Erasing Invisible Watermarks via Novel View Synthesis（RAVEN：利用新视角合成消除不可见水印）

论文链接：arXiv: 2601.08832

作者团队：Fahad Shamshad, Nils Lukas, Karthik Nandakumar｜穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 等

｜论文摘要

隐形水印是验证AI生成图像来源的关键技术，Google SynthID等方案已部署于数亿张图像。

本文暴露了一个根本性漏洞：将水印去除重新定义为“新视角合成”问题 — 生成同一语义内容的另一个“视角”，就好比从稍微偏移的位置重新拍摄同一场景，视觉上几乎一致，但水印的空间相关性被彻底破坏。

RAVEN无需访问水印检测器、无需知道水印方案、无需训练数据，仅通过扩散模型重新生成同一场景的新视图，在保持视觉质量的同时去除水印。在15种水印方案上，RAVEN均达到当前最优的去水印且视觉保真效果，挑战了当前主流AI水印方案的可靠性，为下一代内容溯源技术敲响警钟。

｜实际解决的问题

现有水印鲁棒性测试只考虑像素级和频率级攻击（压缩、裁剪、加噪），忽略了语义保持的视角变换；
现有去水印方法要么需要水印检测器白盒访问，要么需要大量训练数据，要么严重破坏图像质量。

解读

比如你家有一张带隐形标记的画。以前小偷想擦掉标记，只能用砂纸磨、用化学药水洗，画很容易被弄坏。这篇论文提供了新思路：不碰原画，而是用相机重新拍一张照片。画面内容完全一样，但因为拍摄角度变了那么一点点，原来藏在特定像素位置里的隐形标记就对不上了。作者还设计了一个“对照校正”机制，确保新照片的颜色和细节跟原画保持一致。想想也挺可怕的。

论文五：一个融合网络，自适应服务多个任务

论文标题：Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion（Customized Fusion：面向多任务自适应红外-可见光融合的闭环动态网络）

论文链接：arXiv: 2604.08924

作者团队：Zengyi Yang, Yu Liu, Juan Cheng, Zhiqin Zhu, Yafei Zhang, Huafeng Li｜合肥工业大学 & 重庆邮电大学 & 昆明理工大学等

｜论文摘要

红外-可见光图像融合旨在整合两种模态的互补信息，但现有方法难以同时适应多个下游任务（如目标检测、语义分割、显著性检测）。

本文提出闭环动态网络CLDyN，通过语义传输链实现下游任务对融合网络的显式反馈。也就是，让红外与可见光融合结果能够根据下游任务需求自动调整，而不需要重新训练模型。在多个数据集上，CLDyN在保持高融合质量的同时展现出强多任务适应性。

｜实际解决的问题

通用性差：现有任务感知融合方法只在训练过的特定任务上表现好，换一个新任务性能急剧下降；
语义信息有限：任务语义引导的方法直接注入任务特征，但融合特征与任务特征分布差异大，效果不佳。

解读

想象你要把两张照片合成一张：一张是夜视仪拍的红外图（能看清黑暗中的热源，但看不清细节），一张是普通相机拍的可见光图（颜色纹理丰富，但黑暗中看不见）。过往融合算法是固定参数的老式冲印机，无论用来做安防目标识别还是夜景成像，输出底片效果统一。就好比固定配方的厨师，炒同一盘菜给所有人吃。CLDyN相当于一个会听客人反馈的智能厨师：客人尝了一口说“我需要更多辣椒”，厨师就自动调整配方；换个客人厨师又自动根据需求换一套做法。而且厨师只学一次，就能服务各种口味的客人。

看出来了吗？

CoTyle在用极简代码让你能创造自己的风格；ARGUS和RAVEN一个攻一个防，从两端审视AI系统的脆弱性；SD-MIA可以对黑盒模型训过什么数据做审计；而CLDyN用闭环机制打破“一个模型一个任务”的局限，可以一套机制管多个任务。

它们共同说明：当视觉AI的能力边界不断扩大时，研究的焦点也在从「能不能做」转向「做得对不对、安不安全、能不能被信任」。这大概就是CVPR从学术会议走向产业基础设施的必经之路。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章