您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%

本文作者: 陈淑瑜   2026-05-28 14:50
导语:VGGT-Ω通过一套精妙的架构改进,实现了对动态场景的高精度重建,在 Sintel 等极具挑战性的基准测试中,将相机估计精度足足提升了 77%。

来源:公众号“我爱计算机视觉”

原文链接:https://mp.weixin.qq.com/s/4-schz_SOIDnnHpROzrUjw?scene=1&click_id=154


在计算机视觉领域,3D 重建一直被视为一项“硬核”任务。传统的结构从运动(Structure-from-Motion, SfM)算法往往需要复杂的离线优化,而近年来兴起的前馈重建模型虽然速度快,但在处理大规模数据和复杂动态场景时尚需提升。最近,来自牛津大学视觉几何组(Visual Geometry Group, VGG)和 Meta AI 的研究团队发布了全新的重建大模型 VGGT-Ω,试图通过“规模化(Scaling)”的力量彻底改变这一现状。

它不仅将参数量推向了 100 亿(10B),更通过一套精妙的架构改进,实现了对动态场景的高精度重建,在 Sintel 等极具挑战性的基准测试中,将相机估计精度足足提升了 77%。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
  • 论文地址: https://arxiv.org/abs/2605.15195
  • 项目主页: https://vggt-omega.github.io
  • 代码仓库: https://github.com/facebookresearch/vggt-omega
  • 录用信息: CVPR 2026 Oral

为什么重建也需要 Scaling Law?

在自然语言处理和 2D 视觉领域,我们已经见证了模型性能随数据和参数规模呈幂律增长的奇迹。但在 3D 视觉中,这种“规模效应”是否依然存在?

VGGT-Ω 的研究团队发现,重建任务其实是学习空间理解表征的绝佳“代理任务”。通过训练模型预测相机姿态和深度,模型被迫理解场景的几何结构、物体间的遮挡关系甚至是物体的运动规律。为了验证这一猜想,团队将模型从 2 亿参数扩展到 100 亿,并将训练数据从几千个序列增加到 400 万个。实验结果显示:性能提升的曲线几乎是一条完美的直线。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
性能随规模提升的曲线

架构的“减法”与“加法”

要在如此大规模的数据上训练 10B 模型,原有的 VGGT 架构显然太重了。VGGT-Ω 通过对计算瓶颈的精准打击,实现了效率与能力的双重飞跃。

核心输入与输出流程

VGGT-Ω 作为一个前馈 Transformer 模型 ,其核心任务是将  张输入图像  直接映射为对应的相机参数和深度图:

其中, 是深度图, 包含了旋转四元数、平移向量和视场角(Field of View, FoV)。

引入寄存器注意力(Register Attention)

研究人员观察到,Vision Transformer(ViT)在处理图像时,往往会自发地利用一小部分 Token 来携带全局信息。于是,VGGT-Ω 显式地为每帧图像添加了 16 个寄存器(Registers),也称为“场景 Token”。

更有趣的设计在于寄存器注意力:在 25% 的全局注意力层中,不同帧之间的信息交换被严格限制在这些寄存器之间。这就像是开会时,每帧图像只派代表(寄存器)去沟通,而不是所有人乱哄哄地挤在一起。这种设计不仅形成了有效的信息瓶颈,强制寄存器提取高层几何特征,还让训练时的内存消耗降低了约 70%。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
VGGT-Ω 架构概览

显存优化的解码头

传统的密集预测头(如 DPT)在处理高分辨率特征图时会消耗巨大的显存。VGGT-Ω 的替代方案:在分辨率高于 1/4 的层级,使用单个 MLP 配合像素打乱(Pixel Shuffle)操作进行上采样。这种设计在不损失精度的情况下,极大地降低了前向激活值的存储成本。

此外,VGGT-Ω 简化了多任务学习。它不再为点云和匹配特征设计独立的密集解码头,而是在训练时仅保留对应的损失函数(Loss)

这意味着模型在“脑子里”学会了这些能力,但不需要在输出端浪费显存去显式表达。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
全局注意力的稀疏性可视化

4000 万视频中淘出的“金矿”

数据是 Scaling 的燃料。研究团队构建了一个严苛的自动化标注流水线,将互联网上的海量视频转化为高质量的 3D 训练素材。

  • VLM 预过滤:利用视觉语言模型(VLM)剔除掉 50% 的“垃圾视频”(如剪辑、特效、无意义转场)。
  • 动态掩码提取:使用 Grounding DINO 识别行人、车辆等可能在运动状态的物体,确保几何校验时避开这些区域。
  • 一致性校验:通过多视图几何一致性检查(重投影误差等),仅保留那些能够被精准重建的片段。

最终,他们从 4000 万个视频中筛选出了 80 万个高质量序列,其中约三分之一包含动态内容。结合现有的合成数据集,VGGT-Ω 拥有了高达 400 万 个带有精确 3D 标注的训练序列,规模是前作的 15 倍以上。

性能表现:动态重建的新标杆

VGGT-Ω 的强大在动态场景中体现得淋漓尽致。在 Sintel 这种充满剧烈运动的基准测试中,刷新了性能表现。

定量评估:刷新多项纪录

在相机姿态估计方面,VGGT-Ω 在 Sintel 数据集上的 AUC@3° 指标从此前 SOTA 的 22.5 提升到了 40.0,相对提升高达 77%。在深度估计方面,AbsRel(平均绝对相对误差)也大幅下降。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
相机姿态与深度估计定量对比
CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
深度估计定量对比

定性对比:鲁棒性提升

面对重复纹理(如雪地)或剧烈的相机翻转,此前的标杆模型如 Depth Anything 3 可能会出现严重的“重影”或轨迹丢失,而 VGGT-Ω 依然能保持全局几何的一致性。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
定性重建结果
CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
与 MegaSaM 的对比
CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
与 Depth Anything 3 的对比

在推理速度上,得益于 DINOv3 的 16-pixel patch size 和寄存器注意力机制,VGGT-Ω 在处理 1000 帧以上的长视频时,速度和显存表现均优于同类模型。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
推理速度与显存对比

深入洞察:模型内部发生了什么?

除了精度提升,研究团队还通过一系列有趣的实验揭示了 10B 大模型的内在特性。

寄存器的语义对齐

VGGT-Ω 学到的“寄存器”特征不仅包含几何信息,还具有语义通用性。研究人员将模型冻结,将其场景 Token 作为 视觉语言动作模型(Vision-Language-Action, VLA) 的额外输入。在 LIBERO 机器人操作基准测试中,这一简单的操作就让平均成功率从 97.1% 提升到了 98.5%

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
LIBERO 机器人基准测试结果

此外,通过对比学习,这些寄存器甚至可以与自然语言对齐,实现“用文字检索 3D 场景”。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
语言对齐实验

“涌现”出的运动感知

更有趣的是,即使没有显式的运动监督,模型内部的特征也能清晰地将移动的舞者与静止的背景区分开来。这说明在学习“如何重建”的过程中,模型自发地理解了“什么是运动”。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
运动感知表征可视化

数据质量的“坑”

在构建 4M 数据集的过程中,团队也总结了许多宝贵的教训。例如,传感器数据中常见的“前景泄露”、合成数据中的“薄结构失效”以及 SfM 优化中常见的“圆顶效应(Doming Effect)”。这些噪声如果处理不好,会直接导致模型在特定场景下产生幻觉。

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%
常见数据质量问题

写在最后

VGGT-Ω 的成功再次证明了:在 AI 时代,规模化往往是通往鲁棒性的最短路径。通过将 3D 重建从一个复杂的优化问题转变为一个可扩展的学习问题,VGGT-Ω 不仅刷新了多项精度纪录,更为未来的具身智能和世界模型提供了一个强大的几何底座。

入群加好友(v:xiao-ma-baoli),请备注你感兴趣的技术方向

雷峰网版权文章,未经授权禁止转载。详情见转载须知

CVPR 2026 Oral | 牛津 & Meta AI 推出 VGGT-Ω:前馈 3D 重建迈入 10B 参数时代,动态场景精度升 77%

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说