您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

本文作者: 陈淑瑜   2026-06-01 15:41
导语:LILA 盯的是一个很基础、但常常被绕开的点:视觉 foundation model 很强,但很多输出仍然是 patch-level feature。

 


来源:公众号“AI上分搭子

原文链接:https://mp.weixin.qq.com/s/6VviwXMsnFYLQHkVKMUZ3w

    TL;DR

    LILA 盯的是一个很基础、但常常被绕开的点:

    视觉 foundation model 很强,但很多输出仍然是 patch-level feature。

    做分类、检索,patch feature 很够用。

    但做 video object segmentation、surface normal、semantic segmentation,就会卡在更细的地方:

    边界、几何、跨帧一致性。

    LILA 的办法是从未标注视频里学 pixel-level feature。

    它不需要人工 mask。

    也不要求推理时输入视频。

    训练时,它借用 off-the-shelf 模型给出的 depth、optical flow,再加上 self-distillation cue。

    核心机制叫 linear in-context learning

    简单说:

    在一帧上学到的“从特征读出 cue 的线性规则”,换到相邻帧也应该成立。

    先看几组数字:

    • • DAVIS-2017 / DINOv2-S14:linear probing J&F 57.5 → 68.6
    • • DAVIS-2017 / DINOv2-S14:local k-NN J&F 65.1 → 73.9
    • • COCO-Stuff / DINOv2-B14:mIoU 58.5 → 62.4
    • • ADE20K / DINOv2-B14:mIoU 45.5 → 47.5
    • • Table 6:MAE-B16 的 VOS J&F 44.2 → 53.6

    01|为什么还要学 pixel-level feature

    DINOv2、DINOv3 这类视觉 foundation model 已经很强。

    它们的特征里有语义,也有不少几何信息。

    问题在于,很多 encoder 的输出仍然是 patch grid。

    一个 patch 里有很多像素。

    当任务需要细边界、局部几何、跨帧对应时,patch-level feature 就有点粗。

    当然,也可以把输入图像放大,或者用后处理方法上采样 feature。

    但这会带来两个麻烦:

    • • 计算变贵。
    • • 训练和推理的输入分辨率不一致。

    LILA 的目标更直接:

    让模型天然输出每个像素一个 feature。

    而且这个 feature 不只是“看起来更细”。

    它还要带有三类信息:

    • • semantic
    • • geometric
    • • temporal consistency

    视频在这里就派上用场了。

    视频天然有运动,也隐含 3D 几何。

    如果能把这些线索转成训练信号,就有机会补上 image-only pretraining 缺少的部分。


    02|Key Insight:不是直接蒸馏 depth / flow,而是学“能被稳定读出来”的特征

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    LILA 用了 depth 和 optical flow。

    但它并不是简单训练模型去预测 depth 和 flow。

    这点要先说清楚。

    因为这些 cue 本身有噪声。

    off-the-shelf depth / flow 模型在很多视频上能用,但不可能每个像素都准。

    如果直接把 noisy cue 当答案蒸馏,模型很容易连噪声一起学进去。

    LILA 换了一个问法:

    如果一帧里的 feature 真的学到了稳定结构,那么从这帧 feature 到 cue map 的线性映射,换到相邻帧也应该还能用。

    这就是 linear in-context learning

    它学的不是 depth 或 flow 本身。

    它学的是一种 pixel feature:

    同一个线性读出器,在相邻帧里也能解释它。

    约束很轻,但视频里的时间一致性被用进来了。


    03|核心方法:LILA 怎么训练

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    LILA 从一个预训练 ViT 出发,比如 DINOv2。

    encoder 冻住。

    只训练一个 DPT decoder。

    这个 decoder 通过 skip connections,把 patch-level token 上采样成 pixel-level feature map。

    训练时,每次取一对相邻帧:

    • • context frame:
    • • query frame:

    模型分别输出:

    • • context feature:
    • • query feature:

    监督信号来自三类 cue:

    • • PAMR refine 后的 encoder feature
    • • monocular depth
    • • optical flow

    cue map 的构造可以写成:

    这里的  和  是对应 crop。

     是 refine 后的 encoder feature, 是 depth, 是 optical flow。

    接着,在 context frame 上求一个线性映射:

    然后要求同一个  也能解释 query frame:

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    换个更直观的说法:

    context frame 先给出一个“小考题”:

    这个 feature 里能不能线性读出 depth、motion 和 encoder cue?

    query frame 接着验证:

    同一套读出规则,换一帧还成立吗?

    如果成立,说明 feature 里学到的不是单帧噪声,而是更稳定的时空结构。


    04|和相关方法比,LILA 提升在哪

    主结果覆盖三个方向:

    • • video object segmentation
    • • surface normal estimation
    • • semantic segmentation

    DAVIS-2017:VOS 上的提升最直观

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    在 DINOv2-S14 上:

    方法
    Linear Probing J&F
    Local k-NN J&F
    DINOv2-S14
    57.5
    65.1
    + FeatUp
    60.5
    65.5
    + LoftUp
    63.0
    66.0
    + FlowFeat
    65.8
    67.6
    + LILA
    68.673.9

    LILA 的优势不只是 linear probe。

    local k-NN 也明显提高。

    这说明它不只是让类别更容易线性读出来,也让跨帧像素匹配更稳。

    DINOv2-B14 上,LILA 也超过 FlowFeat:

    方法
    Linear Probing J&F
    Local k-NN J&F
    FlowFeat
    65.7
    69.0
    LILA
    70.474.2

    NYUv2 / COCO-Stuff:几何和语义都受益

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Table 2 说明,LILA 并不是只为 VOS 调出来的。

    在 surface normal estimation 上,RMSE 越低越好:

    方法
    NYUv2 RMSE
    DINOv2-B14
    26.56
    FlowFeat
    26.28
    LILA
    25.71

    COCO-Stuff 上,mIoU 越高越好:

    方法
    COCO-Stuff mIoU
    DINOv2-B14
    58.5
    FlowFeat
    60.4
    LILA
    62.4

    DINOv2-L14 + Kinetics 这一行也值得看。

    LILA 的 COCO-Stuff mIoU 到 63.3

    这说明扩大视频数据后,语义表征还能继续涨。

    ADE20K 和 zero-shot COCO-Stuff

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Table 3 补了两个测试。

    ADE20K 上:

    方法
    mIoU
    DINOv2-S14
    43.5
    + LILA
    45.1
    DINOv2-B14
    45.5
    + LILA
    47.5

    zero-shot COCO-Stuff 上,DINOv2-B14 的 harmonic mIoU:

    这说明 LILA 学到的 dense feature,对 unseen classes 也有帮助。


    05|Ablation:哪些部分真的有用

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Table 4 看 cue modality。

    只用 self-distillation 时,VOS local k-NN J&F 是 68.6

    加入 depth 或 flow 后都会涨。

    三种 cue 一起用,local k-NN J&F 到 73.9

    这说明 depth、motion、encoder feature 是互补的。

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Table 5 更关键。

    它比较了 LILA 和直接预测外部 cue 的 ERM distillation。

    方法
    VOS Linear / k-NN J&F
    NYUv2 RMSE
    COCO-Stuff mIoU
    ERM distillation
    63.2 / 61.1
    28.86
    58.4
    LILA Full
    68.6 / 73.928.5359.6

    两者用的是类似 cue。

    差别在于:ERM 直接学 noisy cue,LILA 用跨帧线性一致性过滤噪声。

    这个差距说明,linear in-context learning 本身不是装饰。它确实在起作用。

    其他组件也有贡献:

    • • 去掉 PAMR,VOS k-NN 从 73.9 到 71.9
    • • 去掉 cropping,VOS k-NN 到 72.4
    • • 去掉 temporal sampling,VOS k-NN 到 72.4
    • • 去掉 edge loss,VOS k-NN 到 72.9
    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Figure 7 看 temporal gap。

     太小,任务太容易,学到的表征反而弱。

     变大后,cue predictability 更难,但精度是平滑下降。

    这说明 LILA 确实在利用视频里的时间间隔,而不是只做单帧蒸馏。


    06|Qualitative Analysis

    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Figure 5 适合讲两个点:

    • • surface normal 里,家具、边界、局部结构更细。
    • • semantic segmentation 里,边界和背景细节更清楚。
    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    Figure 6 值得放在“注意点”附近。

    它有两个信息:

    • • 相比 ERM distillation,LILA 的 feature map 更锐利。
    • • 到域外图像时,LILA 对 chest X-ray 还能给出合理表示,但 aerial image 会被阴影干扰。

    这张图也能提醒读者:别把方法理解成“哪里都无脑好”。

    LILA 强,但它确实依赖 depth / flow cue 的适用范围。


    07|Takeaway Message

    LILA 的信息可以压成一句话:

    未标注视频里的 depth 和 motion,不只是训练目标,也可以变成 pixel-level representation learning 的桥。

    它没有推翻 DINOv2 这类大 encoder。

    更像是给它们补了一个 dense decoder。

    encoder 负责强语义。

    decoder 负责把语义、几何和时间一致性落到每个像素。

    这条路线的好处是很实用:

    训练时用视频。

    推理时只要单张图。

    不需要人工 mask。

    结果也不是只在一个 benchmark 上变好,而是在 VOS、surface normal、semantic segmentation 上一起提升。


    08|代码、注意点与 GPT-5.5 编辑点评

    代码 / 项目页:

    • • https://github.com/google-research/google-research/tree/master/lila
    • • https://lila-pixels.github.io

    项目页和 GitHub 已放出代码与 pretrained checkpoints。


    GPT-5.5 尾注

    为什么值得看

    我觉得这篇最值得看的地方,是它很清楚地补了 foundation model 的一个短板。

    大 encoder 已经有强语义。

    但 dense tasks 需要的是每个像素都可靠。

    LILA 没有强行重训整个 foundation model,而是冻结 encoder、训练 decoder,用视频里的 depth / flow cue 把 pixel detail 补上。

    这个选择很克制,也很工程。

    读的时候要保留的判断

    LILA 依赖 off-the-shelf depth 和 optical flow。

    如果这些 cue 在域外场景里不可靠,feature 也可能受影响。

    Figure 6 里的 aerial image 就是一个提醒。

    另外,很多结果是 probing 设置。

    它证明了 representation 更好,但真正接到复杂下游系统时,还要看 task head、训练数据和部署场景。

    后续可以关注什么

    第一个方向,是接更多 backbone。

    附录 Table 6 已经显示,MAE-B16、DINOv2-Reg、DINOv3 上都能有提升,只是幅度不同。

    第二个方向,是引入更多 cue。

    比如更强的 3D cue、object permanence、interaction signal,甚至来自机器人交互的视频反馈。

    第三个方向,是把 LILA 这种 dense decoder 变成视觉 foundation model 的标准配件。

    Reference

    • • Oquab et al. DINOv2: Learning Robust Visual Features without Supervision. arXiv 2023.
    • • Siméoni et al. DINOv3. arXiv 2025.
    • • Fu et al. FeatUp: A Model-Agnostic Framework for Features at Any Resolution. ICLR 2024.
    • • Huang et al. LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models. ICCV 2025.
    • • Araslanov et al. FlowFeat: Pixel-Dense Embedding of Motion Profiles. NeurIPS 2025.
    • • Xu et al. YouTube-VOS: A Large-Scale Video Object Segmentation Benchmark. arXiv 2018.
    • • Caesar et al. COCO-Stuff: Thing and Stuff Classes in Context. CVPR 2018.

     


    CVPR 2026 Oral|Google × TUM:LILA 想让每个像素都有自己的时空特征

    分享:
    相关文章
    最新文章
    请填写申请人资料
    姓名
    电话
    邮箱
    微信号
    作品链接
    个人简介
    为了您的账户安全,请验证邮箱
    您的邮箱还未验证,完成可获20积分哟!
    请验证您的邮箱
    立即验证
    完善账号信息
    您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
    立即设置 以后再说