您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS

本文作者: 陈淑瑜   2026-06-09 15:40
导语:它把 4D 场景理解,从“暴力全量输出”,改成了 “统一接口、按需查询”。

 

来源:“AI前沿速递”公众号

原文链接:https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w


当我们看一段视频时,看到的不只是“这一帧长什么样”,而是一个不断变化的 3D 世界:相机在动,物体在动,遮挡在发生,几何关系也在不断变化

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS

但过去的大多数 3D/4D 重建方法,依然在用一种偏“静态”的方式理解世界:深度一个头、位姿一个头、点云一个头、动态跟踪再来一个系统,最后还要靠复杂的测试时优化把这些模块拼起来。

结果往往是:模型越来越重,推理越来越慢,一旦遇到动态场景,效果就开始掉链子

最近,Google DeepMind 等机构发布的论文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一个非常直接、但也非常有效的新框架:D4RT

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS

它的核心思想只有一句话:

不是把整段视频所有结果一次性“密集解码”出来,而是把视频先编码成一个全局场景表示,再按需查询任意时空点的 3D 位置。

换句话说,它把 4D 场景理解,从“暴力全量输出”,改成了 “统一接口、按需查询”

这一步看起来简单,实际上把 动态 4D 重建、点跟踪、深度估计、相机位姿估计,甚至全像素跟踪,都收拢到了同一个框架里。

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
图1:D4RT 是一个统一、高效的动态 4D 重建与跟踪框架,可通过单一接口输出点云、点轨迹和相机参数

如果把传统方法比作“每次都要把整座城市完整建模一遍”,那么 D4RT 更像是先搭好一个可检索的世界模型。

之后你问它:

“第 3 帧这个像素,在第 10 帧、以第 7 帧相机坐标系表示时,它的 3D 位置在哪?”

它就能直接回答。

这也是论文名字里 “One D4RT at a Time” 的巧妙之处:它不是一次性把所有东西全算出来,而是一个查询、一个查询地把动态世界重建出来。

接下来看看它到底是怎么做的。


一、一个统一接口,打通 4D 重建、深度、跟踪和相机位姿

D4RT 的主体是一个非常清晰的 编码器-解码器结构

先给定输入视频:

编码器提取全局场景表示:

这里的  可以理解为整段视频压缩后的 “全局时空记忆”

然后,模型定义一个查询:

其中:

  • •  是源帧中的 2D 像素位置;
  • •  是这个点来自哪一帧;
  • •  是你想查询它在哪个时间点的状态;
  • •  是你希望结果落在哪个相机坐标系下。

最后,解码器直接输出这个点的 3D 位置:

这套设计最妙的地方在于,它把 “空间位置”“时间状态”“参考坐标系” 彻底解耦了。

你不再需要为深度、点云、跟踪、位姿分别写一套任务头,只需要换一下查询方式,同一个模型就能完成不同任务

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
图2:D4RT 总体框架图。输入视频先被编码成全局场景表示,再通过轻量解码器查询任意时空点的 3D 位置

更进一步,论文还给出了相机位姿和内参的求法。

对于相机外参,作者构造两组查询:

这样就能得到同一批 3D 点在两个参考坐标系下的表示,再通过刚体变换估计相对位姿。

对于相机内参,在针孔模型假设下,焦距可以由预测点坐标直接反推:

这意味着 D4RT 并不是“只能做点跟踪”,而是真正把动态场景里的 几何、运动和相机 都纳入了一个统一解码框架。

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
表1:统一解码接口。通过改变查询中 $u,v,t_{src},t_{tgt},t_{cam}$ 的取值方式,同一个模型接口就能完成多种几何任务

一句话总结:

别的方法是“一个任务一套头”,D4RT 是“一个接口全包”。


二、为什么它会快这么多

这篇论文最让人眼前一亮的,不只是统一,还在于 效率

很多 4D 方法在推理阶段慢得离谱,本质原因是它们要么依赖多模型拼接,要么需要密集逐帧解码,要么查询成本太高。

D4RT 反其道而行之:

  • • 查询是稀疏的
  • • 解码器是轻量的
  • • 每个查询彼此独立

论文中还提出了一个基于占据网格的全像素跟踪加速策略:

它只从还没访问过的像素发起新轨迹,从而把密集跟踪的代价大幅压缩。作者报告,这个策略能带来 5-15 倍的自适应加速

更夸张的是,在相机位姿估计上,D4RT 直接把速度和精度同时拉高。

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
图3:位姿估计中的精度-速度对比。D4RT 同时实现更高精度和更高吞吐,在 A100 上达到 200+ FPS,比 VGGT 快约 9 倍,比 MegaSaM 快约 100 倍

这其实特别关键。

因为视频 4D 理解最怕的不是“论文指标不够高”,而是 “指标高但根本跑不动”

D4RT 的意义在于,它第一次把动态 4D 重建推到了一个真正 可扩展、可部署 的效率区间。


三、动态场景里,它终于不再“看花眼”

动态场景一直是 3D 重建最难的部分。

静态世界里,物体不动,图像间匹配还能靠多视图几何硬撑;但只要天鹅游起来、火车开起来、人物走起来,很多传统方法就会出现明显问题:

  • • 动态物体被重复重建
  • • 动态目标直接丢失
  • • 只能跟踪第一帧可见点,后续遮挡区域彻底断裂

而 D4RT 的优势,恰恰就在这里体现得最明显。

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
图4:不同方法在动态场景中的重建效果对比。D4RT 是唯一能够完整重建全视频所有像素 4D 表示的方法

这张图其实就是整篇论文最想讲明白的一件事:

过去的方法,要么会重建,但不会理解动态;要么会跟踪动态,但重建不完整。

D4RT 第一次把 “动态理解” 和 “整体重建” 真正统一了。


四、核心定量结果:D4RT 在点云和视频深度上都冲到了第一梯队

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
表2:原论文 Table 5 的核心结果摘录。论文在 Sintel、ScanNet、KITTI、Bonn 等基准上评估点云与视频深度,D4RT 在动态场景中优势尤其明显

这张表很说明问题。

在最难的动态场景 Sintel 上,D4RT 的点云误差直接从 1.x 量级打到 0.768;在视频深度上,也把 AbsRel 压到了当前最优水平附近甚至更优。

如果只看静态场景,很多方法都还能勉强“卷一卷”;但一旦进入动态场景,D4RT 的领先幅度会明显变大。

这也从侧面说明,它真正学到的是 时空一致的 4D 表示,而不是静态几何的拼接近似。


五、它不只会“看大结构”,还保住了细节

很多统一模型都会遇到一个经典问题:一旦过于追求全局建模,局部边界和细节就容易糊。

D4RT 为了解决这个问题,在查询中额外加入了 局部 RGB patch 的外观嵌入

论文发现,这个设计非常值。

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
图5:D4RT 在野外视频中的可视化结果。它既能处理静态场景,也能稳定恢复动态场景中的 3D 轨迹
CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
图6:加入局部外观 patch 后,D4RT 在深度图中能更好保留细粒度边界与低层细节

说明:
Figure 6 在 arXiv HTML 中为复合图,直接展示为细节保真实验图,适合放在“细节保留”部分。


六、一个小设计,为什么能带来这么大提升

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
表3:原论文 Table 7。给查询加入局部外观 patch 后,视频深度和相机位姿指标全面提升

这张表特别值得注意。

因为它说明 D4RT 的性能提升,不只是来自“大模型 + 大算力”,而是来自一个非常扎实的设计判断:

全局场景表示负责理解时空结构,局部 patch 负责补足纹理和边界细节。

两者一结合,模型才真正做到:

既懂世界,又看得清局部。


七、为什么说它不是“功能拼盘”,而是真统一

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS
表4:原论文 Table 2 从任务覆盖、功能灵活性和架构复杂度三个层面对比方法能力。D4RT 是少数同时具备完整能力组合的方法

这也是为什么我会觉得,这篇工作真正重要的不是“又刷了一个榜”,而是它把 4D 视频理解重新整理了一遍:

不是更多模块,不是更复杂 pipeline,而是用一个足够干净的接口,把原本分裂的任务收拢到了同一套表示里。


八、最后一句

如果说过去的视频理解,更多是在做 “逐帧视觉 + 后处理补丁”,那么 D4RT 往前迈出的一步是:

让模型第一次开始像在理解一个连续变化的 4D 世界。

它看到的不再只是某一帧里“这里有个点”,而是这个点来自哪里、会运动到哪里、该落在哪个坐标系里,以及它与整个动态场景的关系。

统一、准确、可扩展,还足够快。

这可能就是动态 4D 重建下一阶段最重要的方向。


文末摘要

  1. 1. 论文提出 D4RT,用统一查询接口完成动态 4D 重建、点跟踪、深度估计和相机参数恢复。
  2. 2. 核心公式是先编码整段视频得到全局场景表示:

再通过查询:

解码目标 3D 点:

  1. 3. 在动态场景上,D4RT 同时解决了 “纯重建不会跟动态、纯跟踪又重建不完整” 的老问题。
  2. 4. 在位姿估计上达到 200+ FPS,比 VGGT 快约 9 倍,比 MegaSaM 快约 100 倍
  3. 5. 在 Sintel 等高难动态基准上,点云与视频深度结果进入 SOTA 第一梯队

论文信息

论文标题:Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

论文地址:https://arxiv.org/abs/2512.08924

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招:一个 Transformer 直接“看懂”动态世界,4D 重建速度飙到 200+ FPS

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说