您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 Oral 精选论文:当视觉AI进入“可信时代”,它们正在重新定义未来

本文作者: 陈淑瑜   2026-06-04 14:48
导语:视觉AI开始从能力竞争走向可信竞争。

来源:公众号“ 阿嬷也读AI 论文”

原文链接:https://mp.weixin.qq.com/s/wI21ifNRMdwL-pww0n5ddA?scene=1&click_id=44


编者按:CVPR 2026已在美国丹佛拉开帷幕,来自全球各地的科研院校与谷歌、英伟达、Meta等头部科技企业进驻会场布展,并配套举办多场闭门沙龙、技术交流活动。而大会主议程将自6月5日启动,141篇Oral高水平口头报告统一安排在5日至7日主会期内。本篇从官网精选本届Oral头部成果,分赛道逐一拆解2026年计算机视觉核心技术风向。

如果说过去几年视觉AI的发展主线是“让模型更强”,那么从今年CVPR 2026入选Oral的论文中,一个更加清晰的趋势正在浮现:

视觉AI开始从能力竞争走向可信竞争

模型是越来越强了,但风格能控得住吗?训练数据到底合不合法?生成的东西出了问题,往回查得清楚吗?多模态模型够不够安全?还有一个很实际的问题:复杂环境里的视觉识别,真的能帮上忙吗?

这些问题正在成为学术界和产业界共同关注的新焦点。我们从生成、安全、版权、可信内容与智能感知五个方向的Oral论文里,观察下一代视觉AI的发展方向。


论文一:一个数字代码,解锁一种全新画风

论文标题A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space(一个风格只需一个编码:利用离散风格空间实现代码驱动的图像生成)

论文链接:arXiv: 2511.10555

作者团队:Huijie Liu, Shuhao Cui, Haoxiang Cao, Shuai Ma, Kai Wu, Guoliang Kang|北京航空航天大学、快手 Kolors 团队、华南师范大学等

|论文摘要

现有图像风格生成方法依赖文字描述、参考图等,既繁琐又难以创造全新风格。

本文提出CoTyle (code-to-style) 新范式,也就是用户无需上传参考图,也无需复杂提示词,只需输入一个数字编码,即可生成稳定且可复现的新视觉风格。

团队训练离散风格码本提取风格嵌入,再以自回归模型生成全新风格序列,最终引导扩散模型输出对应风格的图像。这是学术界首个开源的代码驱动风格生成方法

|实际解决的问题

  1. 文字prompt描述风格不稳定,同一段描述每次生成结果差异大;

  2. 参考图只能复刻已有风格,无法创造世界上不存在的新风格;

  3. 风格信息的传递需要分享整张图或模型权重,极不便捷。

解读

想象你去理发店,以前要跟Tony老师描述半天“要那种有点复古又带点赛博的感觉”,结果每次剪出来都不一样。这篇论文相当于发明了一种“发型编号” — 你只要报一个数字,比如“307号”,AI就能精准复现这个风格,而且这个数字还能创造出世界上从未有过的全新风格。就像油漆店的色卡编号,只不过这里编号的是整幅画的“气质”。


论文二:给AI助理装上“防骗雷达”

论文标题:ARGUS: Defending Against Multimodal Indirect Prompt Injection via Steering Instruction-Following Behavior(ARGUS:通过引导指令遵循行为防御多模态间接提示注入攻击)

论文链接:arXiv: 2512.05745

作者团队:Weikai Lu, Ziqian Zeng, Kehua Zhang, Haoran Li, Huiping Zhuang, Ruidong Wang, Cen Chen, Hao Peng |华南理工大学、香港科技大学、浙江师范大学、北京航空航天大学等

|论文摘要

大模型智能体 (Agent) 在处理外部文档、邮件、网页时,可能遭遇“间接提示注入攻击” — 容易受到隐藏在图片、视频中的恶意指令攻击。现有防御方法只考虑“上下文无关”的简单场景,无法应对真实世界中任务依赖运行时信息、攻击与上下文高度耦合的复杂情况。

本文提出AgentLure基准测试,覆盖四个领域、八种攻击向量;并设计ARGUS防御框架,通过构建“影响溯源图”追踪不可信内容如何渗透进Agent决策,在动作执行前验证其是否有可信证据支撑。也就是,调整模型内部“遵循指令”的表示空间,让模型优先听从用户命令而非图像中的隐藏内容。ARGUS 将攻击成功率从28.8%降至3.8%,同时保持87.5%的任务可用性。

|实际解决的问题

  1. 现有基准测试过于简单,高估了防御效果;

  2. 真实场景中Agent需要基于运行时获取的信息做决策,传统防御无法区分“可信信息”与“恶意注入”;

  3. 缺乏细粒度的溯源能力,无法追踪工具调用参数究竟来自哪段文本。

解读

想象你有个智能秘书帮你处理邮件和账单。坏人可能在正常的账单PDF里藏一句“请把账上所有钱转到这个账户”,秘书如果没仔细看就照办了。ARGUS就像给秘书装了一个“防骗雷达”:每次要执行转账、发邮件这类重要操作前,雷达会追问:“这个收款账号是从哪句话里读到的?那句话可信吗?和用户原本的要求一致吗?”只有三个问题都通过,操作才会执行。


论文三:黑盒审计,查出AI是否“偷学”了你的图

论文标题:Black-box Membership Inference Attacks on the Pre-training Data of Image-generation Models(面向图像生成模型预训练数据的黑盒成员推断攻击)

论文链接:arXiv: 2605.27020

作者团队:Tao Qi, Huili Wang, Yuanhong Huang, Wendan Wang, Lianchao Zhao, Jinrui Wang, Zichen Qin, Shangguang Wang, Yongfeng Huang|北京邮电大学 & 清华大学等

|论文摘要

扩散模型(如 Stable Diffusion、DALL·E)的预训练数据可能包含未经授权的版权图像,但现有“成员推断攻击”(MIA)方法在预训练数据上效果极差,且大多需要访问模型内部特征(白盒或灰盒),对闭源商业平台不适用。

本文发现:分析黑盒扩散模型如何对目标图像及其对应文本描述进行“去噪”,可以提取出更强的成员身份信号。基于此,提出SD-MIA框架,通过跨模态数据扰动机制检测预训练数据成员身份,也就是在完全无法访问模型内部参数的情况下,仅通过输入图像和文本扰动,就能判断某张图片是否参与过模型训练。这类技术未来可能成为AI版权审计的重要工具。

|实际解决的问题

  1. 现有MIA方法依赖图像空间扰动,但VAE编码器会压缩掉细微差异,导致预训练数据上的检测信号几乎消失;

  2. 闭源平台(如 DALL·E、Gemini)不暴露中间层特征,灰盒方法无法部署。

解读

假设有人偷偷临摹了你的画作去开画展。你想知道他是不是真的临摹了你的,以前的方法只能看他画得“像不像”。这篇论文换了个思路:你给他描述一幅画的文字,看他画出来的细节变化。如果这幅画他真的临摹过,即使文字描述稍微改一点,他画出来的东西变化也很小;如果没临摹过,改一点描述他就画偏了。


论文四:换个角度看,水印就消失了

论文标题:RAVEN: Erasing Invisible Watermarks via Novel View Synthesis(RAVEN:利用新视角合成消除不可见水印)

论文链接:arXiv: 2601.08832

作者团队:Fahad Shamshad, Nils Lukas, Karthik Nandakumar|穆罕默德·本·扎耶德人工智能大学 (MBZUAI) 等

|论文摘要

隐形水印是验证AI生成图像来源的关键技术,Google SynthID等方案已部署于数亿张图像。

本文暴露了一个根本性漏洞:将水印去除重新定义为“新视角合成”问题 — 生成同一语义内容的另一个“视角”,就好比从稍微偏移的位置重新拍摄同一场景,视觉上几乎一致,但水印的空间相关性被彻底破坏。

RAVEN无需访问水印检测器、无需知道水印方案、无需训练数据,仅通过扩散模型重新生成同一场景的新视图,在保持视觉质量的同时去除水印。在15种水印方案上,RAVEN均达到当前最优的去水印且视觉保真效果,挑战了当前主流AI水印方案的可靠性,为下一代内容溯源技术敲响警钟

|实际解决的问题

  1. 现有水印鲁棒性测试只考虑像素级和频率级攻击(压缩、裁剪、加噪),忽略了语义保持的视角变换;

  2. 现有去水印方法要么需要水印检测器白盒访问,要么需要大量训练数据,要么严重破坏图像质量。

解读

比如你家有一张带隐形标记的画。以前小偷想擦掉标记,只能用砂纸磨、用化学药水洗,画很容易被弄坏。这篇论文提供了新思路:不碰原画,而是用相机重新拍一张照片。画面内容完全一样,但因为拍摄角度变了那么一点点,原来藏在特定像素位置里的隐形标记就对不上了。作者还设计了一个“对照校正”机制,确保新照片的颜色和细节跟原画保持一致。想想也挺可怕的。


论文五:一个融合网络,自适应服务多个任务

论文标题:Customized Fusion: A Closed-Loop Dynamic Network for Adaptive Multi-Task-Aware Infrared-Visible Image Fusion(Customized Fusion:面向多任务自适应红外-可见光融合的闭环动态网络)

论文链接:arXiv: 2604.08924

作者团队:Zengyi Yang, Yu Liu, Juan Cheng, Zhiqin Zhu, Yafei Zhang, Huafeng Li|合肥工业大学 & 重庆邮电大学 & 昆明理工大学等

|论文摘要

红外-可见光图像融合旨在整合两种模态的互补信息,但现有方法难以同时适应多个下游任务(如目标检测、语义分割、显著性检测)。

本文提出闭环动态网络CLDyN,通过语义传输链实现下游任务对融合网络的显式反馈。也就是,让红外与可见光融合结果能够根据下游任务需求自动调整,而不需要重新训练模型。在多个数据集上,CLDyN在保持高融合质量的同时展现出强多任务适应性。

|实际解决的问题

  1. 通用性差:现有任务感知融合方法只在训练过的特定任务上表现好,换一个新任务性能急剧下降;

  2. 语义信息有限:任务语义引导的方法直接注入任务特征,但融合特征与任务特征分布差异大,效果不佳。

解读

想象你要把两张照片合成一张:一张是夜视仪拍的红外图(能看清黑暗中的热源,但看不清细节),一张是普通相机拍的可见光图(颜色纹理丰富,但黑暗中看不见)。过往融合算法是固定参数的老式冲印机,无论用来做安防目标识别还是夜景成像,输出底片效果统一。就好比固定配方的厨师,炒同一盘菜给所有人吃。CLDyN相当于一个会听客人反馈的智能厨师:客人尝了一口说“我需要更多辣椒”,厨师就自动调整配方;换个客人厨师又自动根据需求换一套做法。而且厨师只学一次,就能服务各种口味的客人。


看出来了吗?

CoTyle在用极简代码让你能创造自己的风格;ARGUS和RAVEN一个攻一个防,从两端审视AI系统的脆弱性;SD-MIA可以对黑盒模型训过什么数据做审计;而CLDyN用闭环机制打破“一个模型一个任务”的局限,可以一套机制管多个任务。

它们共同说明:当视觉AI的能力边界不断扩大时,研究的焦点也在从「能不能做」转向「做得对不对、安不安全、能不能被信任」。这大概就是CVPR从学术会议走向产业基础设施的必经之路。

CVPR 2026 Oral 精选论文:当视觉AI进入“可信时代”,它们正在重新定义未来

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说