CVPR 2026 Highlight | 慕尼黑工业大学&英伟达等提出 VideoCUPS：利用运动与深度线索,首个无监督视频全景分割框架，性能刷新 SOTA

本文作者：陈淑瑜

2026-06-05 18:38

导语：VideoCUPS的核心魅力在于：完全不需要人类标注，仅凭普通的单目视频，就能“自学”成才，实现高质量的视频全景理解。

来源：公众号“我爱计算机视觉”

原文链接：https://mp.weixin.qq.com/s/ZAI3_QVi_70Y4AJiGLuxLQ

在计算机视觉的世界里，视频全景分割（Video Panoptic Segmentation, VPS）一直被视为一项“全能且昂贵”的任务。它不仅要求模型识别出视频中的每一个像素属于什么类别（语义分割），还要区分出不同的个体（实例分割），并且在时间轴上准确地将它们关联起来（目标跟踪）。

然而，高质量的 VPS 标注成本高得惊人。为了解决这一痛点，来自慕尼黑工业大学、达姆施塔特工业大学、英伟达以及牛津大学等研究团队联合推出了 VideoCUPS。它的核心魅力在于：完全不需要人类标注，仅凭普通的单目视频，就能“自学”成才，实现高质量的视频全景理解。

CVPR 2026 Highlight | 慕尼黑工业大学&英伟达等提出 VideoCUPS：利用运动与深度线索,首个无监督视频全景分割框架，性能刷新 SOTA

论文地址: https://arxiv.org/abs/2606.04925
项目主页: https://visinf.github.io/videocups
代码仓库: https://github.com/visinf/cups/tree/main/videocups
机构: 慕尼黑工业大学、达姆施塔特工业大学、英伟达、牛津大学、MCML、ELIZA、hessian.AI

背景与动机：从图像到视频的“跨越”

近年来，无监督学习在图像分割领域取得了长足进步。比如之前的 U2Seg 或 CUPS，已经能在不看标签的情况下把图片里的车、人、树分得有模有样。但当我们把目光转向视频时，情况变得复杂了。

视频多了时间维度，意味着模型不仅要分得准，还要跟得住。现有的无监督方法大多盯着静态图像，或者只能处理简单的、以单个物体为中心的视频。面对复杂的真实驾驶场景（Scene-Centric），如何利用视频自带的运动（Motion）和深度（Depth）线索来构建时序一致的理解？这就是 VideoCUPS 想要回答的问题。

方法详解：如何“无中生有”生成伪标签？

VideoCUPS 的核心逻辑分为两步：第一步是生成高质量的视频全景伪标签；第二步是利用这些伪标签训练一个强大的 VPS 模型。

1. 伪标签的“三位一体”生成法

为了在没有标注的情况下识别物体，研究者们借鉴了格式塔心理学（Gestalt principles）中的“共同命运”原则：即一起运动的像素通常属于同一个物体。

运动与深度引导的实例标注：系统首先利用无监督光流网络（SMURF）和单目深度网络（DynamoDepth）提取运动概率。通过一种改进的区域生长（Region Growing）算法，将像素聚合成实例掩码。具体来说，对于像素和其邻域像素，如果它们的深度相对差异和光流差异均低于设定阈值，则将它们归为同一实例。
自监督特征引导的语义标注：利用 DINO 特征的语义丰富性进行聚类。为了解决远近物体尺度不一的问题，VideoCUPS 采用了深度引导的推理策略，将低分辨率的全局语义与高分辨率的局部细节进行融合。
时序一致性处理：这是视频任务的关键。VideoCUPS 通过光流对实例进行前后帧传播，并使用匈牙利匹配（Hungarian Matching）算法，确保同一个 ID 能在多帧中保持稳定。