0
| 本文作者: 陈淑瑜 | 2026-05-28 14:50 |
来源:公众号“我爱计算机视觉” 原文链接:https://mp.weixin.qq.com/s/4-schz_SOIDnnHpROzrUjw?scene=1&click_id=154 在计算机视觉领域,3D 重建一直被视为一项“硬核”任务。传统的结构从运动(Structure-from-Motion, SfM)算法往往需要复杂的离线优化,而近年来兴起的前馈重建模型虽然速度快,但在处理大规模数据和复杂动态场景时尚需提升。最近,来自牛津大学视觉几何组(Visual Geometry Group, VGG)和 Meta AI 的研究团队发布了全新的重建大模型 VGGT-Ω,试图通过“规模化(Scaling)”的力量彻底改变这一现状。
它不仅将参数量推向了 100 亿(10B),更通过一套精妙的架构改进,实现了对动态场景的高精度重建,在 Sintel 等极具挑战性的基准测试中,将相机估计精度足足提升了 77%。

在自然语言处理和 2D 视觉领域,我们已经见证了模型性能随数据和参数规模呈幂律增长的奇迹。但在 3D 视觉中,这种“规模效应”是否依然存在?
VGGT-Ω 的研究团队发现,重建任务其实是学习空间理解表征的绝佳“代理任务”。通过训练模型预测相机姿态和深度,模型被迫理解场景的几何结构、物体间的遮挡关系甚至是物体的运动规律。为了验证这一猜想,团队将模型从 2 亿参数扩展到 100 亿,并将训练数据从几千个序列增加到 400 万个。实验结果显示:性能提升的曲线几乎是一条完美的直线。

要在如此大规模的数据上训练 10B 模型,原有的 VGGT 架构显然太重了。VGGT-Ω 通过对计算瓶颈的精准打击,实现了效率与能力的双重飞跃。
VGGT-Ω 作为一个前馈 Transformer 模型 ,其核心任务是将 张输入图像 直接映射为对应的相机参数和深度图:
其中, 是深度图, 包含了旋转四元数、平移向量和视场角(Field of View, FoV)。
研究人员观察到,Vision Transformer(ViT)在处理图像时,往往会自发地利用一小部分 Token 来携带全局信息。于是,VGGT-Ω 显式地为每帧图像添加了 16 个寄存器(Registers),也称为“场景 Token”。
更有趣的设计在于寄存器注意力:在 25% 的全局注意力层中,不同帧之间的信息交换被严格限制在这些寄存器之间。这就像是开会时,每帧图像只派代表(寄存器)去沟通,而不是所有人乱哄哄地挤在一起。这种设计不仅形成了有效的信息瓶颈,强制寄存器提取高层几何特征,还让训练时的内存消耗降低了约 70%。

传统的密集预测头(如 DPT)在处理高分辨率特征图时会消耗巨大的显存。VGGT-Ω 的替代方案:在分辨率高于 1/4 的层级,使用单个 MLP 配合像素打乱(Pixel Shuffle)操作进行上采样。这种设计在不损失精度的情况下,极大地降低了前向激活值的存储成本。
此外,VGGT-Ω 简化了多任务学习。它不再为点云和匹配特征设计独立的密集解码头,而是在训练时仅保留对应的损失函数(Loss):
这意味着模型在“脑子里”学会了这些能力,但不需要在输出端浪费显存去显式表达。

数据是 Scaling 的燃料。研究团队构建了一个严苛的自动化标注流水线,将互联网上的海量视频转化为高质量的 3D 训练素材。
最终,他们从 4000 万个视频中筛选出了 80 万个高质量序列,其中约三分之一包含动态内容。结合现有的合成数据集,VGGT-Ω 拥有了高达 400 万 个带有精确 3D 标注的训练序列,规模是前作的 15 倍以上。
VGGT-Ω 的强大在动态场景中体现得淋漓尽致。在 Sintel 这种充满剧烈运动的基准测试中,刷新了性能表现。
在相机姿态估计方面,VGGT-Ω 在 Sintel 数据集上的 AUC@3° 指标从此前 SOTA 的 22.5 提升到了 40.0,相对提升高达 77%。在深度估计方面,AbsRel(平均绝对相对误差)也大幅下降。


面对重复纹理(如雪地)或剧烈的相机翻转,此前的标杆模型如 Depth Anything 3 可能会出现严重的“重影”或轨迹丢失,而 VGGT-Ω 依然能保持全局几何的一致性。



在推理速度上,得益于 DINOv3 的 16-pixel patch size 和寄存器注意力机制,VGGT-Ω 在处理 1000 帧以上的长视频时,速度和显存表现均优于同类模型。

除了精度提升,研究团队还通过一系列有趣的实验揭示了 10B 大模型的内在特性。
VGGT-Ω 学到的“寄存器”特征不仅包含几何信息,还具有语义通用性。研究人员将模型冻结,将其场景 Token 作为 视觉语言动作模型(Vision-Language-Action, VLA) 的额外输入。在 LIBERO 机器人操作基准测试中,这一简单的操作就让平均成功率从 97.1% 提升到了 98.5%。

此外,通过对比学习,这些寄存器甚至可以与自然语言对齐,实现“用文字检索 3D 场景”。

更有趣的是,即使没有显式的运动监督,模型内部的特征也能清晰地将移动的舞者与静止的背景区分开来。这说明在学习“如何重建”的过程中,模型自发地理解了“什么是运动”。

在构建 4M 数据集的过程中,团队也总结了许多宝贵的教训。例如,传感器数据中常见的“前景泄露”、合成数据中的“薄结构失效”以及 SfM 优化中常见的“圆顶效应(Doming Effect)”。这些噪声如果处理不好,会直接导致模型在特定场景下产生幻觉。

VGGT-Ω 的成功再次证明了:在 AI 时代,规模化往往是通往鲁棒性的最短路径。通过将 3D 重建从一个复杂的优化问题转变为一个可扩展的学习问题,VGGT-Ω 不仅刷新了多项精度纪录,更为未来的具身智能和世界模型提供了一个强大的几何底座。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。