0
| 本文作者: 陈淑瑜 | 2026-05-27 15:21 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:公众号“什么是人工智能”
根据 CVPR 2026 官方公布的数字:
? 整体观察:一个共同的底层转向
翻阅大量代表性论文,可以总结出一个清晰的共性趋势:
计算机视觉正在从“看见”走向“理解物理世界”。
这一转向在不同方向中有不同表现——在 3D 视觉中体现为“3D Grounding”,要求模型输出物体的体积与空间关系;在视频生成中体现为“世界模型”,要求生成内容符合重力与碰撞。以下内容分方向展开,并适当补充其他方向的交叉亮点。

一、3D 视觉:从“这是什么”到“它在哪里、多大、怎么动”
趋势要点:
3D 视觉今年最显著的变化是:模型不再满足于识别物体类别,而是要求输出物体的“体积、深度、空间关系”——即“3D Grounding”。关键技术创新包括 “Token 化 3D 高斯”、“正则空间建模”、“因果连续位置编码”。
代表性创新算法:
-TokenGS(NVIDIA、CVPR 2026 Highlight):提出可学习 Token 预测 3D 高斯,采用自监督渲染使高斯数量与图像分辨率、视角数完全解耦,突破了前馈 3DGS 预测的容量限制。
-CoSMo3D(山东大学、腾讯等,满分 Oral):通过 LLM 引导构建跨类别正则数据集,引入双分支架构与正则空间约束,在开放世界 3D 零件分割任务上显著超越仅依赖几何映射的方法。
-ReLaGS(DFKI):构建层次化语言蒸馏的 3D 场景表示,通过高斯剪枝和多视图语言对齐,无需场景特定训练即可实现开放词汇分割与关系检索。
-REALM(杭电):首个将多模态大模型与 3DGS 深度耦合的交互式 Agent 系统,并提供大规模 3D 推理评测基准 REALM-3D。
二、多模态 VLM:提升视觉-语言对齐与定位能力,减少“幻觉”
趋势要点:
视觉语言模型今年着力解决两个核心问题:如何让模型准确地将语言描述与图像中的具体区域相对应,以及如何在 3D 场景中进行有效的空间推理。因果对比学习、隐式推理、统一 grounding 框架等技术被大量引入,以提升模型的空间理解与指代能力。
代表性创新算法:
-C²ROPE:提出因果连续旋转位置编码,增强 VLM 对 3D 场景的逻辑因果推演能力,是第一个将因果推理显式嵌入 VLM 的框架之一。
-Linguistic Priors for Visual Decoupling:利用面向对象的文本描述将前景与背景显式解耦,在零样本脑到图像检索任务中取得新 SOTA。
-GroundingGPT:统一处理指代分割、短语定位、3D grounding 的单一模型。
-LISA:机器人持续学习框架,在离散傅里叶空间中表征连续任务知识,缓解灾难性遗忘。

基线模型在 SQA3D 中判断错误(“左边”),而新方法正确回答了“右边”,体现了更强的 3D 空间推理能力。图片来自 CVPR 2026 录用论文
三、图像与视频生成:走向“世界模型”
趋势要点:
生成模型的核心追求已从“视觉逼真”升级为 “物理一致”。研究者通过物理奖励模型、因果事件分解、驾驶规则嵌入等方法,使生成结果符合重力、碰撞、遮挡等基本物理规律。同时,极致的 Token 压缩效率也成为一个突破方向。
代表性创新算法:
-MacTok(复旦,CVPR 2026 Highlight):仅用 64 个 token 在 ImageNet 256×256 上达到 1.44 gFID,实现 64 倍压缩效率。引入随机掩码与语义掩码的混合机制,从根源上解决了连续分词器的“后验坍塌”问题。
-ProPhy:在扩散模型中引入物理约束的奖励函数,使生成视频通过物理一致性检验,向“世界模拟器”迈出关键一步。
-DriveLaW(小米汽车 × 华科):统一视频生成与运动规划的新范式,将视频生成器的潜在表征直接注入扩散规划器,实现预测与决策的内在一致性。
-WorldForge:通用开放域世界模型,支持从初始几帧和动作指令无限生成符合物理逻辑的后续视频。
四、语义分割:开放词汇、开放域、开放零件
趋势要点:
语义分割正在摆脱封闭类别假设,向三个“开放”迈进:
-开放词汇:用自然语言描述即可分割任意物体;
-领域泛化:在仿真数据上训练,直接应用于真实雨、雾、夜间场景;
-零件级分割:分割物体的组成部分。
代表性创新算法:
-CoSMo3D(已在 3D 视觉部分介绍):开放世界 3D 零件分割,用户通过自然语言描述从未见过的物体部件,模型可推理并分割。
-ClimaOoD:物理一致的合成数据生成框架,为自动驾驶提供雨、雾、夜间等极端天气下的异常物体真值,显著提升异常分割在复杂天气下的表现。
-EReCu(杭电):针对无监督伪装物体检测,提出伪标签进化融合与多线索学习的师生协同去噪机制,有效解决噪声累积与细节丢失两大挑战。
-Earth2Ocean:将陆地场景训练的模型迁移到水下图像的解耦域自适应方法。
五、自动驾驶:生成式规划,端到端的新形态
趋势要点:
自动驾驶领域正从模块化(感知→预测→规划)转向生成式自动驾驶:用一个世界模型同时完成未来帧生成、他车行为预测和自车轨迹规划。3D 预训练和物理先验的注入,有助于应对训练数据稀疏的 corner case。
代表性创新算法:
-MeanFuser(中科院自动化所):引入高斯混合噪声引导生成采样,实现轨迹空间的连续建模,消除了传统方法对离散锚点词汇表的依赖。通过 MeanFlow Identity 替代流匹配中的瞬时速度场,单步生成多样化的多模态轨迹。
-NeoVerse(中科院自动化所 × CreateAI):从百万级互联网单目视频中学习,构建通用 4D 世界模型,支持单目→多视角生成、长尾物体反事实场景构建等能力。
-DriveLaW(已在生成部分介绍):专为自动驾驶设计的生成式世界模型。
-STUR3D(3D 视觉部分):为自动驾驶提供高质量的时空表征。
-ClimaOoD(已在分割部分介绍):生成极端天气下的异常物体,提升开集检测能力。
六、目标检测:跨域小样本与异常检测
趋势要点:
目标检测的研究热点已从刷榜 COCO 转向更实际的问题:
-跨域小样本检测:源域数据充足,目标域仅少量标注,模型需保持泛化且不误检;
-异常检测:检测训练集中从未出现的物体类别;
-3D 检测:与 3D 视觉深度融合,利用时间信息与几何先验提升动态场景表现。
代表性创新算法:
-SubspaceAD:将异常检测建模为分布外子空间学习,无需任何异常样本即可检测未知类别,打破了传统异常检测对负样本的依赖。
SubspaceAD 在 MVTec-AD 和 VisA 上的定性对比(a)与零样本异常检测性能(b)


图片来自 CVPR 2026 录用论文
-FT-FSOD:特征迁移框架,仅需目标域少量标注即可显著提升跨域小样本检测精度。
-STUR3D(已在 3D 视觉部分):3D 检测任务上的顶尖性能。
? 其他领域的代表性创新
除了上述六个重点方向,CVPR 2026 在其他领域也涌现出不少值得关注的创新:
-模型压缩:V²Drop(川大、上交、浙大)——基于 Token 变化量的即插即用视觉 Token 剪枝方案,在 LLaVA-1.5-7B 上压缩 66.7% Token 时保持 97.6% 的性能,优于次优方法 PDrop 的 96.0%。
-强化学习与表征学习:SRCP(中科院自动化所)——显著性引导的动态表征任务,将表示学习与后继训练解耦,在视觉无监督强化学习(URL)场景下实现最优的零样本泛化性能。
-遥感:多篇论文探索光学与 SAR 图像的融合、旋转目标检测,以及傅里叶角度对齐新范式。
-视频理解:FlexMem模拟人类记忆机制,解决长视频理解中访问所有帧带来的计算瓶颈。
? 写在最后
CVPR 2026 给我们的最大启示并非某一项指标的突破,而是研究范式的系统性转变:计算机视觉正在从“让机器看见”走向“让机器理解并预测物理世界”。
无论是 3D Grounding、世界模型,还是交互式智能体,背后共同的愿景是让 AI 拥有对物理世界的基本直觉——知道物体有体积、运动会遵循惯性、提问可以得到答案。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
本专题其他文章