CVPR 2026 的底层逻辑：从“看见”到“理解物理世界”

本文作者：陈淑瑜

2026-05-27 15:21

专题：CVPR 计算机视觉与模式识别会议

导语：翻阅大量代表性论文，可以总结出一个清晰的共性趋势：计算机视觉正在从“看见”走向“理解物理世界”。

来源：公众号“什么是人工智能”

原文链接：https://mp.weixin.qq.com/s/b1hLVqT9LJI2tRznuQ1L1Q

根据 CVPR 2026 官方公布的数字：

16,092 篇有效投稿，4,090 篇录用论文，录用率 25.42%。

数据的背后，计算机视觉正在经历一次深刻的转变：从识别与生成，转向理解物理规律、支持多步推理、适应开放世界。

本篇以 3D 视觉、多模态 VLM、图像生成、语义分割、自动驾驶、目标检测六大方向为主线，穿插模型压缩、遥感、视频理解等领域的代表性工作，梳理 CVPR 2026 突破性的创新算法。

? 整体观察：一个共同的底层转向

翻阅大量代表性论文，可以总结出一个清晰的共性趋势：

计算机视觉正在从“看见”走向“理解物理世界”。

这一转向在不同方向中有不同表现——在 3D 视觉中体现为“3D Grounding”，要求模型输出物体的体积与空间关系；在视频生成中体现为“世界模型”，要求生成内容符合重力与碰撞。以下内容分方向展开，并适当补充其他方向的交叉亮点。

一、3D 视觉：从“这是什么”到“它在哪里、多大、怎么动”

趋势要点：

3D 视觉今年最显著的变化是：模型不再满足于识别物体类别，而是要求输出物体的“体积、深度、空间关系”——即“3D Grounding”。关键技术创新包括 “Token 化 3D 高斯”、“正则空间建模”、“因果连续位置编码”。

代表性创新算法：

-TokenGS（NVIDIA、CVPR 2026 Highlight）：提出可学习 Token 预测 3D 高斯，采用自监督渲染使高斯数量与图像分辨率、视角数完全解耦，突破了前馈 3DGS 预测的容量限制。

-CoSMo3D（山东大学、腾讯等，满分 Oral）：通过 LLM 引导构建跨类别正则数据集，引入双分支架构与正则空间约束，在开放世界 3D 零件分割任务上显著超越仅依赖几何映射的方法。

-ReLaGS（DFKI）：构建层次化语言蒸馏的 3D 场景表示，通过高斯剪枝和多视图语言对齐，无需场景特定训练即可实现开放词汇分割与关系检索。

-REALM（杭电）：首个将多模态大模型与 3DGS 深度耦合的交互式 Agent 系统，并提供大规模 3D 推理评测基准 REALM-3D。

? 其他方向的联动：类似的时空统一表征也被用于视频理解（如 FlexMem 的长视频记忆机制）和自动驾驶的端到端规划中。

二、多模态 VLM：提升视觉-语言对齐与定位能力，减少“幻觉”

趋势要点：

视觉语言模型今年着力解决两个核心问题：如何让模型准确地将语言描述与图像中的具体区域相对应，以及如何在 3D 场景中进行有效的空间推理。因果对比学习、隐式推理、统一 grounding 框架等技术被大量引入，以提升模型的空间理解与指代能力。

代表性创新算法：

-C²ROPE：提出因果连续旋转位置编码，增强 VLM 对 3D 场景的逻辑因果推演能力，是第一个将因果推理显式嵌入 VLM 的框架之一。

-Linguistic Priors for Visual Decoupling：利用面向对象的文本描述将前景与背景显式解耦，在零样本脑到图像检索任务中取得新 SOTA。

-GroundingGPT：统一处理指代分割、短语定位、3D grounding 的单一模型。

-LISA：机器人持续学习框架，在离散傅里叶空间中表征连续任务知识，缓解灾难性遗忘。

基线模型在 SQA3D 中判断错误（“左边”），而新方法正确回答了“右边”，体现了更强的 3D 空间推理能力。图片来自 CVPR 2026 录用论文

? 其他方向：VLM 的推理能力也被用于遥感图像理解（如结合 SAR 与光学图像的多模态分析）和 AI 安全中的对抗性越狱防御。

三、图像与视频生成：走向“世界模型”

趋势要点：

生成模型的核心追求已从“视觉逼真”升级为 “物理一致”。研究者通过物理奖励模型、因果事件分解、驾驶规则嵌入等方法，使生成结果符合重力、碰撞、遮挡等基本物理规律。同时，极致的 Token 压缩效率也成为一个突破方向。

代表性创新算法：

-MacTok（复旦，CVPR 2026 Highlight）：仅用 64 个 token 在 ImageNet 256×256 上达到 1.44 gFID，实现 64 倍压缩效率。引入随机掩码与语义掩码的混合机制，从根源上解决了连续分词器的“后验坍塌”问题。

-ProPhy：在扩散模型中引入物理约束的奖励函数，使生成视频通过物理一致性检验，向“世界模拟器”迈出关键一步。

-DriveLaW（小米汽车 × 华科）：统一视频生成与运动规划的新范式，将视频生成器的潜在表征直接注入扩散规划器，实现预测与决策的内在一致性。

-WorldForge：通用开放域世界模型，支持从初始几帧和动作指令无限生成符合物理逻辑的后续视频。

? 其他方向：生成模型的可靠性也推动了AIGC 检测的研究，如无需训练的似然比方法 STALL。

四、语义分割：开放词汇、开放域、开放零件

趋势要点：

语义分割正在摆脱封闭类别假设，向三个“开放”迈进：

-开放词汇：用自然语言描述即可分割任意物体；

-领域泛化：在仿真数据上训练，直接应用于真实雨、雾、夜间场景；

-零件级分割：分割物体的组成部分。

代表性创新算法：

-CoSMo3D（已在 3D 视觉部分介绍）：开放世界 3D 零件分割，用户通过自然语言描述从未见过的物体部件，模型可推理并分割。

-ClimaOoD：物理一致的合成数据生成框架，为自动驾驶提供雨、雾、夜间等极端天气下的异常物体真值，显著提升异常分割在复杂天气下的表现。

-EReCu（杭电）：针对无监督伪装物体检测，提出伪标签进化融合与多线索学习的师生协同去噪机制，有效解决噪声累积与细节丢失两大挑战。

-Earth2Ocean：将陆地场景训练的模型迁移到水下图像的解耦域自适应方法。

? 其他方向：开放词汇分割的思路也用于目标检测中的异常检测（如 SubspaceAD），以及遥感中的旋转目标检测。

五、自动驾驶：生成式规划，端到端的新形态

趋势要点：

自动驾驶领域正从模块化（感知→预测→规划）转向生成式自动驾驶：用一个世界模型同时完成未来帧生成、他车行为预测和自车轨迹规划。3D 预训练和物理先验的注入，有助于应对训练数据稀疏的 corner case。

代表性创新算法：

-MeanFuser（中科院自动化所）：引入高斯混合噪声引导生成采样，实现轨迹空间的连续建模，消除了传统方法对离散锚点词汇表的依赖。通过 MeanFlow Identity 替代流匹配中的瞬时速度场，单步生成多样化的多模态轨迹。

-NeoVerse（中科院自动化所 × CreateAI）：从百万级互联网单目视频中学习，构建通用 4D 世界模型，支持单目→多视角生成、长尾物体反事实场景构建等能力。

-DriveLaW（已在生成部分介绍）：专为自动驾驶设计的生成式世界模型。

-STUR3D（3D 视觉部分）：为自动驾驶提供高质量的时空表征。

-ClimaOoD（已在分割部分介绍）：生成极端天气下的异常物体，提升开集检测能力。

? 其他方向：自动驾驶中对计算效率的要求，推动了模型压缩领域的发展，例如Prune2Drive专为驾驶 VLM 设计的视觉 Token 裁剪方案，推理速度提升 6.4 倍。

六、目标检测：跨域小样本与异常检测

趋势要点：

目标检测的研究热点已从刷榜 COCO 转向更实际的问题：

-跨域小样本检测：源域数据充足，目标域仅少量标注，模型需保持泛化且不误检；

-异常检测：检测训练集中从未出现的物体类别；

-3D 检测：与 3D 视觉深度融合，利用时间信息与几何先验提升动态场景表现。

代表性创新算法：

-SubspaceAD：将异常检测建模为分布外子空间学习，无需任何异常样本即可检测未知类别，打破了传统异常检测对负样本的依赖。

SubspaceAD 在 MVTec-AD 和 VisA 上的定性对比（a）与零样本异常检测性能（b）

图片来自 CVPR 2026 录用论文

-FT-FSOD：特征迁移框架，仅需目标域少量标注即可显著提升跨域小样本检测精度。

-STUR3D（已在 3D 视觉部分）：3D 检测任务上的顶尖性能。

? 其他方向：增量/持续目标检测的思路与具身智能中的终身学习（如 LISA）有相通之处。

? 其他领域的代表性创新

除了上述六个重点方向，CVPR 2026 在其他领域也涌现出不少值得关注的创新：

-模型压缩：V²Drop（川大、上交、浙大）——基于 Token 变化量的即插即用视觉 Token 剪枝方案，在 LLaVA-1.5-7B 上压缩 66.7% Token 时保持 97.6% 的性能，优于次优方法 PDrop 的 96.0%。

-强化学习与表征学习：SRCP（中科院自动化所）——显著性引导的动态表征任务，将表示学习与后继训练解耦，在视觉无监督强化学习（URL）场景下实现最优的零样本泛化性能。

-遥感：多篇论文探索光学与 SAR 图像的融合、旋转目标检测，以及傅里叶角度对齐新范式。

-视频理解：FlexMem模拟人类记忆机制，解决长视频理解中访问所有帧带来的计算瓶颈。

? 写在最后

CVPR 2026 给我们的最大启示并非某一项指标的突破，而是研究范式的系统性转变：计算机视觉正在从“让机器看见”走向“让机器理解并预测物理世界”。

无论是 3D Grounding、世界模型，还是交互式智能体，背后共同的愿景是让 AI 拥有对物理世界的基本直觉——知道物体有体积、运动会遵循惯性、提问可以得到答案。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章