您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 的底层逻辑:从“看见”到“理解物理世界”

本文作者: 陈淑瑜   2026-05-27 15:21 专题:CVPR 计算机视觉与模式识别会议
导语:翻阅大量代表性论文,可以总结出一个清晰的共性趋势:计算机视觉正在从“看见”走向“理解物理世界”。


来源:公众号“什么是人工智能”

原文链接https://mp.weixin.qq.com/s/b1hLVqT9LJI2tRznuQ1L1Q


根据 CVPR 2026 官方公布的数字:

16,092 篇有效投稿,4,090 篇录用论文,录用率 25.42%。

数据的背后,计算机视觉正在经历一次深刻的转变:从识别与生成,转向理解物理规律、支持多步推理、适应开放世界。

本篇以 3D 视觉、多模态 VLM、图像生成、语义分割、自动驾驶、目标检测六大方向为主线,穿插模型压缩、遥感、视频理解等领域的代表性工作,梳理 CVPR 2026 突破性的创新算法。

? 整体观察:一个共同的底层转向

翻阅大量代表性论文,可以总结出一个清晰的共性趋势:


计算机视觉正在从“看见”走向“理解物理世界”。


这一转向在不同方向中有不同表现——在 3D 视觉中体现为“3D Grounding”,要求模型输出物体的体积与空间关系;在视频生成中体现为“世界模型”,要求生成内容符合重力与碰撞。以下内容分方向展开,并适当补充其他方向的交叉亮点。

CVPR 2026 的底层逻辑:从“看见”到“理解物理世界”

一、3D 视觉:从“这是什么”到“它在哪里、多大、怎么动”

趋势要点:

3D 视觉今年最显著的变化是:模型不再满足于识别物体类别,而是要求输出物体的“体积、深度、空间关系”——即“3D Grounding”。关键技术创新包括 “Token 化 3D 高斯”、“正则空间建模”、“因果连续位置编码”。

代表性创新算法:

-TokenGS(NVIDIA、CVPR 2026 Highlight):提出可学习 Token 预测 3D 高斯,采用自监督渲染使高斯数量与图像分辨率、视角数完全解耦,突破了前馈 3DGS 预测的容量限制。

-CoSMo3D(山东大学、腾讯等,满分 Oral):通过 LLM 引导构建跨类别正则数据集,引入双分支架构与正则空间约束,在开放世界 3D 零件分割任务上显著超越仅依赖几何映射的方法。

-ReLaGS(DFKI):构建层次化语言蒸馏的 3D 场景表示,通过高斯剪枝和多视图语言对齐,无需场景特定训练即可实现开放词汇分割与关系检索。

-REALM(杭电):首个将多模态大模型与 3DGS 深度耦合的交互式 Agent 系统,并提供大规模 3D 推理评测基准 REALM-3D。

? 其他方向的联动:类似的时空统一表征也被用于视频理解(如 FlexMem 的长视频记忆机制)和自动驾驶的端到端规划中。

二、多模态 VLM:提升视觉-语言对齐与定位能力,减少“幻觉”

趋势要点:

视觉语言模型今年着力解决两个核心问题:如何让模型准确地将语言描述与图像中的具体区域相对应,以及如何在 3D 场景中进行有效的空间推理。因果对比学习、隐式推理、统一 grounding 框架等技术被大量引入,以提升模型的空间理解与指代能力。

代表性创新算法:

-C²ROPE:提出因果连续旋转位置编码,增强 VLM 对 3D 场景的逻辑因果推演能力,是第一个将因果推理显式嵌入 VLM 的框架之一。

-Linguistic Priors for Visual Decoupling:利用面向对象的文本描述将前景与背景显式解耦,在零样本脑到图像检索任务中取得新 SOTA。

-GroundingGPT:统一处理指代分割、短语定位、3D grounding 的单一模型。

-LISA:机器人持续学习框架,在离散傅里叶空间中表征连续任务知识,缓解灾难性遗忘。

CVPR 2026 的底层逻辑:从“看见”到“理解物理世界”

基线模型在 SQA3D 中判断错误(“左边”),而新方法正确回答了“右边”,体现了更强的 3D 空间推理能力。图片来自 CVPR 2026 录用论文

? 其他方向:VLM 的推理能力也被用于遥感图像理解(如结合 SAR 与光学图像的多模态分析)和 AI 安全中的对抗性越狱防御。

三、图像与视频生成:走向“世界模型”

趋势要点:

生成模型的核心追求已从“视觉逼真”升级为 “物理一致”。研究者通过物理奖励模型、因果事件分解、驾驶规则嵌入等方法,使生成结果符合重力、碰撞、遮挡等基本物理规律。同时,极致的 Token 压缩效率也成为一个突破方向。

代表性创新算法:

-MacTok(复旦,CVPR 2026 Highlight):仅用 64 个 token 在 ImageNet 256×256 上达到 1.44 gFID,实现 64 倍压缩效率。引入随机掩码与语义掩码的混合机制,从根源上解决了连续分词器的“后验坍塌”问题。

-ProPhy:在扩散模型中引入物理约束的奖励函数,使生成视频通过物理一致性检验,向“世界模拟器”迈出关键一步。

-DriveLaW(小米汽车 × 华科):统一视频生成与运动规划的新范式,将视频生成器的潜在表征直接注入扩散规划器,实现预测与决策的内在一致性。

-WorldForge:通用开放域世界模型,支持从初始几帧和动作指令无限生成符合物理逻辑的后续视频。

? 其他方向:生成模型的可靠性也推动了AIGC 检测的研究,如无需训练的似然比方法 STALL。

四、语义分割:开放词汇、开放域、开放零件

趋势要点:

语义分割正在摆脱封闭类别假设,向三个“开放”迈进:

-开放词汇:用自然语言描述即可分割任意物体;

-领域泛化:在仿真数据上训练,直接应用于真实雨、雾、夜间场景;

-零件级分割:分割物体的组成部分。

代表性创新算法:

-CoSMo3D(已在 3D 视觉部分介绍):开放世界 3D 零件分割,用户通过自然语言描述从未见过的物体部件,模型可推理并分割。

-ClimaOoD:物理一致的合成数据生成框架,为自动驾驶提供雨、雾、夜间等极端天气下的异常物体真值,显著提升异常分割在复杂天气下的表现。

-EReCu(杭电):针对无监督伪装物体检测,提出伪标签进化融合与多线索学习的师生协同去噪机制,有效解决噪声累积与细节丢失两大挑战。

-Earth2Ocean:将陆地场景训练的模型迁移到水下图像的解耦域自适应方法。

? 其他方向:开放词汇分割的思路也用于目标检测中的异常检测(如 SubspaceAD),以及遥感中的旋转目标检测。

五、自动驾驶:生成式规划,端到端的新形态

趋势要点:

自动驾驶领域正从模块化(感知→预测→规划)转向生成式自动驾驶:用一个世界模型同时完成未来帧生成、他车行为预测和自车轨迹规划。3D 预训练和物理先验的注入,有助于应对训练数据稀疏的 corner case。

代表性创新算法:

-MeanFuser(中科院自动化所):引入高斯混合噪声引导生成采样,实现轨迹空间的连续建模,消除了传统方法对离散锚点词汇表的依赖。通过 MeanFlow Identity 替代流匹配中的瞬时速度场,单步生成多样化的多模态轨迹。

-NeoVerse(中科院自动化所 × CreateAI):从百万级互联网单目视频中学习,构建通用 4D 世界模型,支持单目→多视角生成、长尾物体反事实场景构建等能力。

-DriveLaW(已在生成部分介绍):专为自动驾驶设计的生成式世界模型。

-STUR3D(3D 视觉部分):为自动驾驶提供高质量的时空表征。

-ClimaOoD(已在分割部分介绍):生成极端天气下的异常物体,提升开集检测能力。

? 其他方向:自动驾驶中对计算效率的要求,推动了模型压缩领域的发展,例如Prune2Drive专为驾驶 VLM 设计的视觉 Token 裁剪方案,推理速度提升 6.4 倍。

六、目标检测:跨域小样本与异常检测

趋势要点:

目标检测的研究热点已从刷榜 COCO 转向更实际的问题:

-跨域小样本检测:源域数据充足,目标域仅少量标注,模型需保持泛化且不误检;

-异常检测:检测训练集中从未出现的物体类别;

-3D 检测:与 3D 视觉深度融合,利用时间信息与几何先验提升动态场景表现。

代表性创新算法:

-SubspaceAD:将异常检测建模为分布外子空间学习,无需任何异常样本即可检测未知类别,打破了传统异常检测对负样本的依赖。

SubspaceAD 在 MVTec-AD 和 VisA 上的定性对比(a)与零样本异常检测性能(b)

CVPR 2026 的底层逻辑:从“看见”到“理解物理世界”
CVPR 2026 的底层逻辑:从“看见”到“理解物理世界”

图片来自 CVPR 2026 录用论文

-FT-FSOD:特征迁移框架,仅需目标域少量标注即可显著提升跨域小样本检测精度。

-STUR3D(已在 3D 视觉部分):3D 检测任务上的顶尖性能。

? 其他方向:增量/持续目标检测的思路与具身智能中的终身学习(如 LISA)有相通之处。

? 其他领域的代表性创新

除了上述六个重点方向,CVPR 2026 在其他领域也涌现出不少值得关注的创新:

-模型压缩:V²Drop(川大、上交、浙大)——基于 Token 变化量的即插即用视觉 Token 剪枝方案,在 LLaVA-1.5-7B 上压缩 66.7% Token 时保持 97.6% 的性能,优于次优方法 PDrop 的 96.0%。

-强化学习与表征学习:SRCP(中科院自动化所)——显著性引导的动态表征任务,将表示学习与后继训练解耦,在视觉无监督强化学习(URL)场景下实现最优的零样本泛化性能。

-遥感:多篇论文探索光学与 SAR 图像的融合、旋转目标检测,以及傅里叶角度对齐新范式。

-视频理解:FlexMem模拟人类记忆机制,解决长视频理解中访问所有帧带来的计算瓶颈。

? 写在最后

CVPR 2026 给我们的最大启示并非某一项指标的突破,而是研究范式的系统性转变:计算机视觉正在从“让机器看见”走向“让机器理解并预测物理世界”。

无论是 3D Grounding、世界模型,还是交互式智能体,背后共同的愿景是让 AI 拥有对物理世界的基本直觉——知道物体有体积、运动会遵循惯性、提问可以得到答案。

雷峰网版权文章,未经授权禁止转载。详情见转载须知

CVPR 2026 的底层逻辑:从“看见”到“理解物理世界”

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说