您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

IDESplat:用于可泛化 3D 高斯泼溅的迭代深度概率估计方法 | CVPR 2026

本文作者: 陈淑瑜   2026-05-27 15:35 专题:CVPR 计算机视觉与模式识别会议
导语:这篇论文主要想解决一个很实际的问题:如何更准确地估计深度进而学习到更准确的高斯参数,实现更准确的三维场景重建。

 来源:知乎博主“TopR” 

原文链接:https://zhuanlan.zhihu.com/p/2027411504710922571

论文链接:https://arxiv.org/abs/2601.03824

项目代码:https://github.com/CVL-UESTC/IDESplat

 

分享我们最近的一篇关于 Generalizable 3D Gaussian Splatting 的工作:IDESplat。这篇论文主要想解决一个很实际的问题:如何更准确地估计深度进而学习到更准确的高斯参数,实现更准确的三维场景重建。

1. 问题到底出在哪?

在 generalizable 3DGS 里,网络需要直接预测一组 Gaussian 参数来完成场景重建和新视角合成。

其中最关键、也最难预测的,其实是 Gaussian 的位置(mean)。

现有很多方法通常会先预测深度,再把深度反投影成 3D 点,作为 Gaussian 中心。这个思路本身没有问题,但难点在于:深度估计够不够准。

而现有方法里,一个比较普遍的限制是:它们大多只依赖 单次 warp 来估计深度概率。这样做虽然直接,但对跨视角几何信息的利用其实并不充分,所以预测出来的深度图往往会比较粗,也不够稳定。深度一旦不准,后面的 Gaussian mean 就会跟着偏,最终影响重建质量。

2. 我们的核心想法是什么?

我们的想法其实很直接:

既然单次 warp 得到的深度概率不够可靠,那就不要只做一次,而是把深度概率估计做成一个“迭代增强”的过程。

这就是 IDESplat 的核心思路:

通过 iterative depth probability estimation,让模型在多轮 warp 中不断强化高置信度的深度候选,逐步得到更精确的深度图,最终预测出更准确的 Gaussian mean。

3. IDESplat 具体是怎么做的?

(1)用 DPBU 做深度概率增强

我们提出了一个模块,叫 Depth Probability Boosting Unit(DPBU)。

在每个 DPBU 里,我们不会只做一次跨视角匹配,而是会做多次 warp,得到多个深度概率结果。然后,不是简单相加,而是采用一种乘法式增强的方式,把这些概率结果融合起来。

这样做的直观意义是:

如果某个深度候选在多次匹配里都表现稳定,它的概率就会被不断放大;

如果某个候选只是偶然匹配上了,但不够稳定,它的概率就会被抑制。

所以,DPBU 本质上是在回答一个问题:

哪些深度位置,是在多轮跨视角几何约束下依然成立的?

(2)把深度估计做成逐步细化的过程

除了做概率增强,我们还把整个深度估计设计成一个逐轮细化的过程。

具体来说:

第一轮先在一个较大的深度范围里做粗搜索;

得到初始深度结果后,后续迭代围绕当前结果重新定义更小的搜索范围;

同时逐步提高特征分辨率,让后面的估计更细。

这个过程有点像“先粗定位,再局部精修”。

随着迭代进行,模型会逐渐把注意力集中到更可信的深度区域上,因此得到的深度图也会越来越准确。

(3)进一步提升效率:Warp-Index Epipolar Attention

多次 warp 会带来一个问题:内存开销。

为了解决这个问题,我们设计了 Warp-Index Epipolar Attention。它不是像常规方法那样保存完整的 dense warping features,而是只记录 warp 对应的索引,再结合稀疏矩阵乘法来完成相关性计算。

这样做的好处是:

可以支持多轮 warp 和迭代优化,同时把内存成本控制在一个更合理的范围内。

(4)针对其他 Gaussian 参数,我们引入了 GFM

除了 Gaussian mean 之外,其他 Gaussian 参数的预测也很重要。为此,我们设计了 Gaussian Focused Module(GFM)。

它的作用可以简单理解为:

在特征交互时,不是让所有 Gaussian token 都同等参与,而是尽量筛选出更相关的 token 来做注意力计算,减少无关信息带来的噪声。

这一步进一步提升了特征表达质量,也有助于最终重建效果。

IDESplat:用于可泛化 3D 高斯泼溅的迭代深度概率估计方法 | CVPR 2026

图:IDESplat 整体网络架构

4. 这篇工作的关键贡献可以概括为 4 点

第一,

我们提出了一个新的 generalizable 3DGS 框架 IDESplat,把深度估计从“单次预测”改成了“迭代增强”。

第二,

我们设计了 DPBU,通过多次 warp 结果的乘法式融合,提升深度概率估计的可靠性。

第三,

我们构建了一个逐步缩小深度搜索范围、逐步提升特征分辨率的迭代深度估计过程,使深度预测更细、更稳。

第四,

我们设计了 Gaussian Focused Module,进一步提升 Gaussian 特征交互的有效性。

5. 实验结果说明了什么?

实验结果表明,这个思路不仅有效,而且在性能和泛化上都比较突出。

IDESplat:用于可泛化 3D 高斯泼溅的迭代深度概率估计方法 | CVPR 2026

图:深度图可视化对比(IDESplat vs 其他方法)

在 RealEstate10K 上,IDESplat 的 PSNR 达到 27.80 dB,相比 DepthSplat 提升了 0.33 dB。

更重要的是,我们的方法参数量只有对方的 10.7%,内存占用也更低。

在 ACID 上,IDESplat 也取得了更好的结果。

而在跨数据集测试中,模型从 RE10K 直接迁移到 DTU 时,PSNR 还能比 DepthSplat 高 2.95 dB,说明它并不只是对单一数据集有效,而是真的具备更强的几何建模和泛化能力。

IDESplat:用于可泛化 3D 高斯泼溅的迭代深度概率估计方法 | CVPR 2026

图:IDESplat 新视角合成效果展示

6. 我们想说明的核心结论是什么?

这篇工作最想说明的一点其实是:

对于 generalizable 3DGS 来说,瓶颈往往不只是渲染本身,而是前面的深度概率估计是否足够可靠。

IDESplat 本质上是在做一件事:

把原来依赖单次 warp 的深度预测,变成一个多轮确认、逐步收敛的过程。

当深度图变得更准确之后,Gaussian mean 的预测自然会更准,最终带来更好的场景重建和新视角合成效果。


雷峰网版权文章,未经授权禁止转载。详情见转载须知

IDESplat:用于可泛化 3D 高斯泼溅的迭代深度概率估计方法 | CVPR 2026

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说