CVPR 26 最佳论文 | 谷歌 DeepMind 放大招：一个 Transformer 直接“看懂”动态世界，4D 重建速度飙到 200+ FPS

本文作者：陈淑瑜

2026-06-09 15:40

专题：CVPR 计算机视觉与模式识别会议

导语：它把 4D 场景理解，从“暴力全量输出”，改成了 “统一接口、按需查询”。

来源：“AI前沿速递”公众号

原文链接：https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w

当我们看一段视频时，看到的不只是“这一帧长什么样”，而是一个不断变化的 3D 世界：相机在动，物体在动，遮挡在发生，几何关系也在不断变化。

CVPR 26 最佳论文 | 谷歌 DeepMind 放大招：一个 Transformer 直接“看懂”动态世界，4D 重建速度飙到 200+ FPS

但过去的大多数 3D/4D 重建方法，依然在用一种偏“静态”的方式理解世界：深度一个头、位姿一个头、点云一个头、动态跟踪再来一个系统，最后还要靠复杂的测试时优化把这些模块拼起来。

结果往往是：模型越来越重，推理越来越慢，一旦遇到动态场景，效果就开始掉链子。

最近，Google DeepMind 等机构发布的论文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一个非常直接、但也非常有效的新框架：D4RT。

它的核心思想只有一句话：

不是把整段视频所有结果一次性“密集解码”出来，而是把视频先编码成一个全局场景表示，再按需查询任意时空点的 3D 位置。

换句话说，它把 4D 场景理解，从“暴力全量输出”，改成了 “统一接口、按需查询”。

这一步看起来简单，实际上把 动态 4D 重建、点跟踪、深度估计、相机位姿估计，甚至全像素跟踪，都收拢到了同一个框架里。

如果把传统方法比作“每次都要把整座城市完整建模一遍”，那么 D4RT 更像是先搭好一个可检索的世界模型。

之后你问它：

“第 3 帧这个像素，在第 10 帧、以第 7 帧相机坐标系表示时，它的 3D 位置在哪？”

它就能直接回答。

这也是论文名字里 “One D4RT at a Time” 的巧妙之处：它不是一次性把所有东西全算出来，而是一个查询、一个查询地把动态世界重建出来。

接下来看看它到底是怎么做的。

一、一个统一接口，打通 4D 重建、深度、跟踪和相机位姿

D4RT 的主体是一个非常清晰的 编码器-解码器结构。

先给定输入视频：

编码器提取全局场景表示：

这里的可以理解为整段视频压缩后的 “全局时空记忆”。

然后，模型定义一个查询：

其中：

• 是源帧中的 2D 像素位置；
• 是这个点来自哪一帧；
• 是你想查询它在哪个时间点的状态；
• 是你希望结果落在哪个相机坐标系下。

最后，解码器直接输出这个点的 3D 位置：

这套设计最妙的地方在于，它把 “空间位置”“时间状态”“参考坐标系” 彻底解耦了。

你不再需要为深度、点云、跟踪、位姿分别写一套任务头，只需要换一下查询方式，同一个模型就能完成不同任务。

更进一步，论文还给出了相机位姿和内参的求法。

对于相机外参，作者构造两组查询：

这样就能得到同一批 3D 点在两个参考坐标系下的表示，再通过刚体变换估计相对位姿。

对于相机内参，在针孔模型假设下，焦距可以由预测点坐标直接反推：

这意味着 D4RT 并不是“只能做点跟踪”，而是真正把动态场景里的 几何、运动和相机 都纳入了一个统一解码框架。

一句话总结：

别的方法是“一个任务一套头”，D4RT 是“一个接口全包”。

二、为什么它会快这么多

这篇论文最让人眼前一亮的，不只是统一，还在于效率。

很多 4D 方法在推理阶段慢得离谱，本质原因是它们要么依赖多模型拼接，要么需要密集逐帧解码，要么查询成本太高。

D4RT 反其道而行之：

• 查询是稀疏的；
• 解码器是轻量的；
• 每个查询彼此独立。

论文中还提出了一个基于占据网格的全像素跟踪加速策略：

它只从还没访问过的像素发起新轨迹，从而把密集跟踪的代价大幅压缩。作者报告，这个策略能带来 5-15 倍的自适应加速。

更夸张的是，在相机位姿估计上，D4RT 直接把速度和精度同时拉高。

这其实特别关键。

因为视频 4D 理解最怕的不是“论文指标不够高”，而是 “指标高但根本跑不动”。

D4RT 的意义在于，它第一次把动态 4D 重建推到了一个真正 可扩展、可部署 的效率区间。

三、动态场景里，它终于不再“看花眼”

动态场景一直是 3D 重建最难的部分。

静态世界里，物体不动，图像间匹配还能靠多视图几何硬撑；但只要天鹅游起来、火车开起来、人物走起来，很多传统方法就会出现明显问题：

• 动态物体被重复重建；
• 动态目标直接丢失；
• 只能跟踪第一帧可见点，后续遮挡区域彻底断裂。

而 D4RT 的优势，恰恰就在这里体现得最明显。

这张图其实就是整篇论文最想讲明白的一件事：

过去的方法，要么会重建，但不会理解动态；要么会跟踪动态，但重建不完整。

D4RT 第一次把 “动态理解” 和 “整体重建” 真正统一了。

四、核心定量结果：D4RT 在点云和视频深度上都冲到了第一梯队

这张表很说明问题。

在最难的动态场景 Sintel 上，D4RT 的点云误差直接从 1.x 量级打到 0.768；在视频深度上，也把 AbsRel 压到了当前最优水平附近甚至更优。

如果只看静态场景，很多方法都还能勉强“卷一卷”；但一旦进入动态场景，D4RT 的领先幅度会明显变大。

这也从侧面说明，它真正学到的是 时空一致的 4D 表示，而不是静态几何的拼接近似。

五、它不只会“看大结构”，还保住了细节

很多统一模型都会遇到一个经典问题：一旦过于追求全局建模，局部边界和细节就容易糊。

D4RT 为了解决这个问题，在查询中额外加入了 局部 RGB patch 的外观嵌入。

论文发现，这个设计非常值。

说明：
Figure 6 在 arXiv HTML 中为复合图，直接展示为细节保真实验图，适合放在“细节保留”部分。

六、一个小设计，为什么能带来这么大提升

这张表特别值得注意。

因为它说明 D4RT 的性能提升，不只是来自“大模型 + 大算力”，而是来自一个非常扎实的设计判断：

全局场景表示负责理解时空结构，局部 patch 负责补足纹理和边界细节。

两者一结合，模型才真正做到：

既懂世界，又看得清局部。

七、为什么说它不是“功能拼盘”，而是真统一

这也是为什么我会觉得，这篇工作真正重要的不是“又刷了一个榜”，而是它把 4D 视频理解重新整理了一遍：

不是更多模块，不是更复杂 pipeline，而是用一个足够干净的接口，把原本分裂的任务收拢到了同一套表示里。

八、最后一句

如果说过去的视频理解，更多是在做 “逐帧视觉 + 后处理补丁”，那么 D4RT 往前迈出的一步是：

让模型第一次开始像在理解一个连续变化的 4D 世界。

它看到的不再只是某一帧里“这里有个点”，而是这个点来自哪里、会运动到哪里、该落在哪个坐标系里，以及它与整个动态场景的关系。

统一、准确、可扩展，还足够快。

这可能就是动态 4D 重建下一阶段最重要的方向。

文末摘要

1. 论文提出 D4RT，用统一查询接口完成动态 4D 重建、点跟踪、深度估计和相机参数恢复。
2. 核心公式是先编码整段视频得到全局场景表示：

再通过查询：

解码目标 3D 点：

3. 在动态场景上，D4RT 同时解决了 “纯重建不会跟动态、纯跟踪又重建不完整” 的老问题。
4. 在位姿估计上达到 200+ FPS，比 VGGT 快约 9 倍，比 MegaSaM 快约 100 倍。
5. 在 Sintel 等高难动态基准上，点云与视频深度结果进入 SOTA 第一梯队。

论文信息

论文标题：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

论文地址：https://arxiv.org/abs/2512.08924

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章