CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω：前馈 3D 重建迈入 10B 参数时代，动态场景精度升 77%

本文作者：陈淑瑜

2026-05-28 14:50

导语：VGGT-Ω通过一套精妙的架构改进，实现了对动态场景的高精度重建，在 Sintel 等极具挑战性的基准测试中，将相机估计精度足足提升了 77%。

来源：公众号“我爱计算机视觉”

原文链接：https://mp.weixin.qq.com/s/4-schz_SOIDnnHpROzrUjw?scene=1&click_id=154

在计算机视觉领域，3D 重建一直被视为一项“硬核”任务。传统的结构从运动（Structure-from-Motion, SfM）算法往往需要复杂的离线优化，而近年来兴起的前馈重建模型虽然速度快，但在处理大规模数据和复杂动态场景时尚需提升。最近，来自牛津大学视觉几何组（Visual Geometry Group, VGG）和 Meta AI 的研究团队发布了全新的重建大模型 VGGT-Ω，试图通过“规模化（Scaling）”的力量彻底改变这一现状。

它不仅将参数量推向了 100 亿（10B），更通过一套精妙的架构改进，实现了对动态场景的高精度重建，在 Sintel 等极具挑战性的基准测试中，将相机估计精度足足提升了 77%。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω：前馈 3D 重建迈入 10B 参数时代，动态场景精度升 77%

论文地址: https://arxiv.org/abs/2605.15195
项目主页: https://vggt-omega.github.io
代码仓库: https://github.com/facebookresearch/vggt-omega
录用信息: CVPR 2026 Oral

为什么重建也需要 Scaling Law？

在自然语言处理和 2D 视觉领域，我们已经见证了模型性能随数据和参数规模呈幂律增长的奇迹。但在 3D 视觉中，这种“规模效应”是否依然存在？

VGGT-Ω 的研究团队发现，重建任务其实是学习空间理解表征的绝佳“代理任务”。通过训练模型预测相机姿态和深度，模型被迫理解场景的几何结构、物体间的遮挡关系甚至是物体的运动规律。为了验证这一猜想，团队将模型从 2 亿参数扩展到 100 亿，并将训练数据从几千个序列增加到 400 万个。实验结果显示：性能提升的曲线几乎是一条完美的直线。

架构的“减法”与“加法”

要在如此大规模的数据上训练 10B 模型，原有的 VGGT 架构显然太重了。VGGT-Ω 通过对计算瓶颈的精准打击，实现了效率与能力的双重飞跃。

核心输入与输出流程

VGGT-Ω 作为一个前馈 Transformer 模型，其核心任务是将张输入图像直接映射为对应的相机参数和深度图：

其中，是深度图，包含了旋转四元数、平移向量和视场角（Field of View, FoV）。

引入寄存器注意力（Register Attention）

研究人员观察到，Vision Transformer（ViT）在处理图像时，往往会自发地利用一小部分 Token 来携带全局信息。于是，VGGT-Ω 显式地为每帧图像添加了 16 个寄存器（Registers），也称为“场景 Token”。

更有趣的设计在于寄存器注意力：在 25% 的全局注意力层中，不同帧之间的信息交换被严格限制在这些寄存器之间。这就像是开会时，每帧图像只派代表（寄存器）去沟通，而不是所有人乱哄哄地挤在一起。这种设计不仅形成了有效的信息瓶颈，强制寄存器提取高层几何特征，还让训练时的内存消耗降低了约 70%。

显存优化的解码头

传统的密集预测头（如 DPT）在处理高分辨率特征图时会消耗巨大的显存。VGGT-Ω 的替代方案：在分辨率高于 1/4 的层级，使用单个 MLP 配合像素打乱（Pixel Shuffle）操作进行上采样。这种设计在不损失精度的情况下，极大地降低了前向激活值的存储成本。

此外，VGGT-Ω 简化了多任务学习。它不再为点云和匹配特征设计独立的密集解码头，而是在训练时仅保留对应的损失函数（Loss）：

这意味着模型在“脑子里”学会了这些能力，但不需要在输出端浪费显存去显式表达。

4000 万视频中淘出的“金矿”

数据是 Scaling 的燃料。研究团队构建了一个严苛的自动化标注流水线，将互联网上的海量视频转化为高质量的 3D 训练素材。

VLM 预过滤：利用视觉语言模型（VLM）剔除掉 50% 的“垃圾视频”（如剪辑、特效、无意义转场）。
动态掩码提取：使用 Grounding DINO 识别行人、车辆等可能在运动状态的物体，确保几何校验时避开这些区域。
一致性校验：通过多视图几何一致性检查（重投影误差等），仅保留那些能够被精准重建的片段。

最终，他们从 4000 万个视频中筛选出了 80 万个高质量序列，其中约三分之一包含动态内容。结合现有的合成数据集，VGGT-Ω 拥有了高达 400 万 个带有精确 3D 标注的训练序列，规模是前作的 15 倍以上。

性能表现：动态重建的新标杆

VGGT-Ω 的强大在动态场景中体现得淋漓尽致。在 Sintel 这种充满剧烈运动的基准测试中，刷新了性能表现。

定量评估：刷新多项纪录

在相机姿态估计方面，VGGT-Ω 在 Sintel 数据集上的 AUC@3° 指标从此前 SOTA 的 22.5 提升到了 40.0，相对提升高达 77%。在深度估计方面，AbsRel（平均绝对相对误差）也大幅下降。

定性对比：鲁棒性提升

面对重复纹理（如雪地）或剧烈的相机翻转，此前的标杆模型如 Depth Anything 3 可能会出现严重的“重影”或轨迹丢失，而 VGGT-Ω 依然能保持全局几何的一致性。

在推理速度上，得益于 DINOv3 的 16-pixel patch size 和寄存器注意力机制，VGGT-Ω 在处理 1000 帧以上的长视频时，速度和显存表现均优于同类模型。

深入洞察：模型内部发生了什么？

除了精度提升，研究团队还通过一系列有趣的实验揭示了 10B 大模型的内在特性。

寄存器的语义对齐

VGGT-Ω 学到的“寄存器”特征不仅包含几何信息，还具有语义通用性。研究人员将模型冻结，将其场景 Token 作为 视觉语言动作模型（Vision-Language-Action, VLA） 的额外输入。在 LIBERO 机器人操作基准测试中，这一简单的操作就让平均成功率从 97.1% 提升到了 98.5%。