0
| 本文作者: 陈淑瑜 | 2026-06-09 15:40 |
来源:“AI前沿速递”公众号
原文链接:https://mp.weixin.qq.com/s/kIWr4LaHcrYH1Aj3yb4K7w
当我们看一段视频时,看到的不只是“这一帧长什么样”,而是一个不断变化的 3D 世界:相机在动,物体在动,遮挡在发生,几何关系也在不断变化。

但过去的大多数 3D/4D 重建方法,依然在用一种偏“静态”的方式理解世界:深度一个头、位姿一个头、点云一个头、动态跟踪再来一个系统,最后还要靠复杂的测试时优化把这些模块拼起来。
结果往往是:模型越来越重,推理越来越慢,一旦遇到动态场景,效果就开始掉链子。
最近,Google DeepMind 等机构发布的论文 《Efficiently Reconstructing Dynamic Scenes One D4RT at a Time》 提出了一个非常直接、但也非常有效的新框架:D4RT。

它的核心思想只有一句话:
不是把整段视频所有结果一次性“密集解码”出来,而是把视频先编码成一个全局场景表示,再按需查询任意时空点的 3D 位置。
换句话说,它把 4D 场景理解,从“暴力全量输出”,改成了 “统一接口、按需查询”。
这一步看起来简单,实际上把 动态 4D 重建、点跟踪、深度估计、相机位姿估计,甚至全像素跟踪,都收拢到了同一个框架里。

如果把传统方法比作“每次都要把整座城市完整建模一遍”,那么 D4RT 更像是先搭好一个可检索的世界模型。
之后你问它:
“第 3 帧这个像素,在第 10 帧、以第 7 帧相机坐标系表示时,它的 3D 位置在哪?”
它就能直接回答。
这也是论文名字里 “One D4RT at a Time” 的巧妙之处:它不是一次性把所有东西全算出来,而是一个查询、一个查询地把动态世界重建出来。
接下来看看它到底是怎么做的。
D4RT 的主体是一个非常清晰的 编码器-解码器结构。
先给定输入视频:
编码器提取全局场景表示:
这里的 可以理解为整段视频压缩后的 “全局时空记忆”。
然后,模型定义一个查询:
其中:
最后,解码器直接输出这个点的 3D 位置:
这套设计最妙的地方在于,它把 “空间位置”“时间状态”“参考坐标系” 彻底解耦了。
你不再需要为深度、点云、跟踪、位姿分别写一套任务头,只需要换一下查询方式,同一个模型就能完成不同任务。

更进一步,论文还给出了相机位姿和内参的求法。
对于相机外参,作者构造两组查询:
这样就能得到同一批 3D 点在两个参考坐标系下的表示,再通过刚体变换估计相对位姿。
对于相机内参,在针孔模型假设下,焦距可以由预测点坐标直接反推:
这意味着 D4RT 并不是“只能做点跟踪”,而是真正把动态场景里的 几何、运动和相机 都纳入了一个统一解码框架。

一句话总结:
别的方法是“一个任务一套头”,D4RT 是“一个接口全包”。
这篇论文最让人眼前一亮的,不只是统一,还在于 效率。
很多 4D 方法在推理阶段慢得离谱,本质原因是它们要么依赖多模型拼接,要么需要密集逐帧解码,要么查询成本太高。
D4RT 反其道而行之:
论文中还提出了一个基于占据网格的全像素跟踪加速策略:
它只从还没访问过的像素发起新轨迹,从而把密集跟踪的代价大幅压缩。作者报告,这个策略能带来 5-15 倍的自适应加速。
更夸张的是,在相机位姿估计上,D4RT 直接把速度和精度同时拉高。

这其实特别关键。
因为视频 4D 理解最怕的不是“论文指标不够高”,而是 “指标高但根本跑不动”。
D4RT 的意义在于,它第一次把动态 4D 重建推到了一个真正 可扩展、可部署 的效率区间。
动态场景一直是 3D 重建最难的部分。
静态世界里,物体不动,图像间匹配还能靠多视图几何硬撑;但只要天鹅游起来、火车开起来、人物走起来,很多传统方法就会出现明显问题:
而 D4RT 的优势,恰恰就在这里体现得最明显。

这张图其实就是整篇论文最想讲明白的一件事:
过去的方法,要么会重建,但不会理解动态;要么会跟踪动态,但重建不完整。
D4RT 第一次把 “动态理解” 和 “整体重建” 真正统一了。

这张表很说明问题。
在最难的动态场景 Sintel 上,D4RT 的点云误差直接从 1.x 量级打到 0.768;在视频深度上,也把 AbsRel 压到了当前最优水平附近甚至更优。
如果只看静态场景,很多方法都还能勉强“卷一卷”;但一旦进入动态场景,D4RT 的领先幅度会明显变大。
这也从侧面说明,它真正学到的是 时空一致的 4D 表示,而不是静态几何的拼接近似。
很多统一模型都会遇到一个经典问题:一旦过于追求全局建模,局部边界和细节就容易糊。
D4RT 为了解决这个问题,在查询中额外加入了 局部 RGB patch 的外观嵌入。
论文发现,这个设计非常值。


说明:
Figure 6 在 arXiv HTML 中为复合图,直接展示为细节保真实验图,适合放在“细节保留”部分。

这张表特别值得注意。
因为它说明 D4RT 的性能提升,不只是来自“大模型 + 大算力”,而是来自一个非常扎实的设计判断:
全局场景表示负责理解时空结构,局部 patch 负责补足纹理和边界细节。
两者一结合,模型才真正做到:
既懂世界,又看得清局部。

这也是为什么我会觉得,这篇工作真正重要的不是“又刷了一个榜”,而是它把 4D 视频理解重新整理了一遍:
不是更多模块,不是更复杂 pipeline,而是用一个足够干净的接口,把原本分裂的任务收拢到了同一套表示里。
如果说过去的视频理解,更多是在做 “逐帧视觉 + 后处理补丁”,那么 D4RT 往前迈出的一步是:
让模型第一次开始像在理解一个连续变化的 4D 世界。
它看到的不再只是某一帧里“这里有个点”,而是这个点来自哪里、会运动到哪里、该落在哪个坐标系里,以及它与整个动态场景的关系。
统一、准确、可扩展,还足够快。
这可能就是动态 4D 重建下一阶段最重要的方向。
再通过查询:
解码目标 3D 点:
论文标题:Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
论文地址:https://arxiv.org/abs/2512.08924