您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

本文作者: 陈淑瑜   2026-06-11 13:44 专题:CVPR 计算机视觉与模式识别会议
导语:用 VLM 生成 object-level supervision,再训练专门模型,是一个很可复用的思路。

 

来源:公众号“AI上分搭子”

原文链接:https://mp.weixin.qq.com/s/M8hMiiMzQeIcRwwPe7eZ3Q

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

TL;DR

Dense Video Object Captioning,简称 DVOC。

它想做的事很细:

  • • 在视频里找到每个物体;
  • • 给它分割 mask 或 box;
  • • 跨帧跟住它;
  • • 最后为这条物体轨迹写一句 caption。

这篇 CVPR 2026 论文走了一条很干净的路线。

先造数据。

作者用 Gemini 2.0 Flash 给 LVIS 和 LV-VIS 生成 object-level captions,得到两个新数据集:LVISCap 和 LV-VISCap

再训模型。

CaptionFormer 用 OVFormer / Mask2Former 做 clip-level segmentation,再把同一个物体在多个片段里的 query 聚合起来,交给 BLIP-2 风格的 captioning head。

结果也比较清楚:

  • • VidSTG:CHOTA 到 64.0
  • • VLN:CHOTA 到 47.7
  • • BenSMOT:CIDEr 到 42.6
CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚



01|视频理解里,有个很麻烦的小任务

普通的视频检测任务,大多回答:

画面里有什么?

Tracking 再多问一句:

这个物体下一帧去哪了?

DVOC 要求更细。

它希望模型对视频里的每个物体都交出一份“小报告”:

  • • 它在哪里;
  • • 它属于哪条轨迹;
  • • 它在做什么;
  • • 怎么用自然语言描述它。

比如一个人拿着削笔刀,模型不能只说“person”。

它最好能描述:

一个人正用手拿着并转动一个黑色削笔刀。

听起来只是多一句话。

但训练时会很贵。

因为每个视频都有多个物体,每个物体又跨越多个时间点。要给这些轨迹逐条写 caption,人工标注成本会迅速爆炸。

已有方法通常绕着走:

  • • 检测、跟踪、captioning 分开训;
  • • 或者把多个预训练模块拼起来;
  • • 再靠评估时的格式适配完成 DVOC。

能跑。

但监督信号没有真正合在一起。

CaptionFormer 抓住的,就是这个数据缺口。


02|Key Insight:segmentation 数据里,其实已经藏着半个答案

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

Figure 2 是这篇论文最值得先看的图。

它讲数据怎么来。

LVIS 和 LV-VIS 本来就有物体 mask、box 和 category。

缺的是 caption。

作者没有从零人工写 caption,而是把已有标注转成一个 VLM 能理解的问题:

请描述这个被框出来的物体。

做法并不绕。

先从 mask 提取 bounding box。

再把目标物体的 box 画到视频帧上。

然后把这些信息写进 prompt:

  • • 目标类别;
  • • bbox 坐标;
  • • bbox 面积;
  • • 其他物体类别;
  • • 少量示例。

最后送给 Gemini 2.0 Flash,生成 object-level caption。

这样一来,原来的 segmentation 数据集被扩展成 DVOC 训练集:

  • • LVISCap:图像物体 caption,用来做 image-level pretraining;
  • • LV-VISCap:视频物体轨迹 caption,用来做 video-level training。

这一步把问题换了一个形态:不再死磕昂贵人工标注,而是想办法稳定地产生细粒度监督。


03|CaptionFormer 怎么工作

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

Figure 3 是方法图。

CaptionFormer 大致分三段。

第一段:clip-level 视觉理解

视频被切成若干 clip。

每个 clip 先经过 OVFormer / Mask2Former,输出 object queries。

这些 query 会对应:

  • • mask;
  • • box;
  • • object score;
  • • class score。

第二段:跨 clip 跟踪

同一个物体会出现在不同 clip 里。

模型用 Hungarian matching 做 query matching,把这些片段接成轨迹。

这一步让模型能处理“物体消失又出现”的情况。

第三段:给轨迹写 caption

对每条物体轨迹,CaptionFormer 会从多个 clip 里取 query。

再做 temporal aggregation。

最后把聚合后的 video-level query 送到 BLIP-2 风格的 LLM decoder,生成一句 caption。

最后输出的是:

一条物体轨迹 + mask / box + caption。

DVOC 需要的几件事,在同一个模型里接上了。


04|最少公式版理解

这里保留三条公式。

不用细抠符号,看它们分别在做什么就够了。

1. 把 mask 变成 VLM 能看的视觉提示

意思是:

第  个物体的 bounding box 被画到第  帧上。

VLM 看到的不是原始视频,而是“这个框里的物体”。


2. 把多个 clip 的 query 聚合成一条轨迹表示

同一个物体在不同 clip 里会有不同 query。

CaptionFormer 用检测分数  做权重,把它们汇总起来。

这就是 temporal aggregation。


3. 训练时把视觉和语言监督放在一起

这里不用纠结某个 loss 的细节。

关键在于,captioning loss 也会回到 object query 上。

这让 caption 监督不只是最后接一个文字生成头,而是参与塑造物体表示。


05|实验结果:它到底强在哪

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

Table 3 是 VidSTG 上的主结果。

先看几组数字。

Benchmark
方法
关键指标
VidSTG
DVOC-DS
CHOTA 56.9
VidSTG
CaptionFormer + temp agg
CHOTA 64.0
VidSTG
DVOC-DS
CapA 39.7
VidSTG
CaptionFormer + temp agg
CapA 55.4

VidSTG 里,CapA 的提升尤其明显。

synthetic object captions 不是装饰性的文字补丁,它补的是 DVOC 最缺的监督。

再看 VLN。

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚
Benchmark
方法
CHOTA
VLN
DVOC-DS
41.3
VLN
CaptionFormer
45.4
VLN
CaptionFormer + mask loss + temp agg
47.7

这张表还有一个细节。

加入 mask loss 后,DetA 从 48.7 到 50.1,AssA 从 89.7 到 92.7。

也就是说,把 DVOC 从 box 扩展到 segmentation mask,不只是形式上更细,指标也受益。

BenSMOT 上看 CIDEr。

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚
方法
CIDEr
SMOTer
8.7
DVOC-DS
25.4
CaptionFormer
39.9
CaptionFormer + temp agg
42.6

BenSMOT 主要关注人。

CaptionFormer 在这里的 CIDEr 提升很大,说明它对“物体轨迹描述”本身更有优势。

还有一个实际成本信息也值得留意。

作者写到,相比 DVOC-DS 的 2032 GPU hours,他们的方法对应 208 GPU hours

如果这个数字在复现中能站住,CaptionFormer 不只是效果更好,也更容易被后续工作拿来用。


06|Ablation:哪些设计真的有用

Ablation 部分可以看四个地方。

Prompt 怎么写

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

Table 1 很直观。

只给单帧或多帧,人工评分只有 26.8 / 27.1

加入 category labels 后,直接到 80.7

再加 bbox coordinates、bbox area 和 few-shot examples,最终到 85.1

这个差距很说明问题。

VLM 本身很强,但它不会自动知道你到底想描述哪个物体。

框、类别、面积、上下文,这些提示都在帮模型把注意力落到目标轨迹上。

LVISCap 和 LV-VISCap 是否互补

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

SwinB 设置下:

训练数据
CHOTA
只用 LV-VISCap
54.7
只用 LVISCap
45.8
LVISCap + LV-VISCap
59.5

图像数据给规模。

视频数据给时间和轨迹语境。

两者合起来,模型表现最好。

数据规模还能不能继续吃

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

Figure 4 显示,CapA 和 LVISCap captions 数量呈 log-linear 相关。

换成更直白的话:

继续生成更多 caption,可能还有提升空间。

当然,前提是 caption 质量不能塌。

temporal aggregation 有没有必要

CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚
聚合方式
CapA
CHOTA
1 clip, best score
51.0
62.3
8 uniform clips
52.7
63.0
16 uniform clips
53.8
63.4
32 uniform clips
55.464.0

视频里的动作通常不是一帧能讲完的。

多个 clip 聚合后,captioning 的信息更完整。

Table 8 还有一个小惊喜。

加入 captioning loss 后,LV-VISCap 上 video instance segmentation 的 mAP 从 31.7 到 34.2

caption 监督反过来帮了视觉 query。

这也是本文一个挺有意思的副作用。


07|Takeaway Message

CaptionFormer 最值得记住的点,是它把 DVOC 缺的监督补齐了。

每个物体不再只有 mask、box、category。

它还有一条跨时间的 caption。

有了这份数据,模型就可以围绕 object query 同时学习:

  • • 分割;
  • • 检测;
  • • 跟踪;
  • • 描述。

这条路线的实用性很强。

先用强 VLM 批量生成细粒度监督。

再训练一个更专门、更可评估的视频模型。

对于长视频理解、视频编辑、机器人和交互式检索,这种“轨迹 + 描述”的输出会很有用。


08|代码、数据与 GPT-5.5 编辑点评

代码 / 项目页:

  • • https://www.gabriel.fiastre.fr/captionformer/

论文正文写明:code 和 generated annotations 会在项目页提供。


GPT-5.5 尾注

为什么值得看

  • • DVOC 比普通视频检测更接近真实理解:系统要知道物体在哪里,也要能讲清楚它在视频里发生了什么。
  • • 它没有只改模型。先补数据,再训模型,路线比较完整。
  • • 用 VLM 生成 object-level supervision,再训练专门模型,是一个很可复用的思路。

读的时候要保留的判断

  • • CaptionFormer 是面向 DVOC 的专门系统,不是通用视频大模型。
  • • synthetic captions 的质量很关键。Table 1 已经说明,prompt 写法会明显影响标注质量。
  • • 当前 benchmark 的动作复杂度有限。Table 7 里单个 best-score clip 已经表现不错,更长、更复杂的视频可能会更考验 temporal aggregation。

后续可以关注什么

  • • 这套 caption 生成流水线能否扩到更长视频、更开放类别和更复杂交互。
  • • 生成 captions 的偏差如何控制,尤其是 VLM 自身的幻觉和模板化描述。
  • • 如果代码和标注开放顺利,CaptionFormer 可能会成为 DVOC 后续工作的一个方便起点。

Reference

  • • Zhou et al. Dense Video Object Captioning from Disjoint Supervision. ICLR 2025.
  • • Choudhuri et al. OW-VisCapTor: Open-World Video Instance Captioning and Tracking. arXiv 2025.
  • • Li et al. Beyond MOT: Semantic Multi-Object Tracking. ECCV 2024.
  • • Fang et al. Unified Embedding Alignment for Open-Vocabulary Video Instance Segmentation. ECCV 2025.
  • • Wang et al. Towards Open-Vocabulary Video Instance Segmentation. ICCV 2023.
  • • Li et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML 2023.

 


CVPR 2026|DeepMind 出品 CaptionFormer:视频的每个物体,都能被跟住、分出来、说清楚

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说