0
| 本文作者: 陈淑瑜 | 2026-05-27 15:35 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:知乎博主“TopR”
原文链接:https://zhuanlan.zhihu.com/p/2027411504710922571
论文链接:https://arxiv.org/abs/2601.03824
项目代码:https://github.com/CVL-UESTC/IDESplat
分享我们最近的一篇关于 Generalizable 3D Gaussian Splatting 的工作:IDESplat。这篇论文主要想解决一个很实际的问题:如何更准确地估计深度进而学习到更准确的高斯参数,实现更准确的三维场景重建。
在 generalizable 3DGS 里,网络需要直接预测一组 Gaussian 参数来完成场景重建和新视角合成。
其中最关键、也最难预测的,其实是 Gaussian 的位置(mean)。
现有很多方法通常会先预测深度,再把深度反投影成 3D 点,作为 Gaussian 中心。这个思路本身没有问题,但难点在于:深度估计够不够准。
而现有方法里,一个比较普遍的限制是:它们大多只依赖 单次 warp 来估计深度概率。这样做虽然直接,但对跨视角几何信息的利用其实并不充分,所以预测出来的深度图往往会比较粗,也不够稳定。深度一旦不准,后面的 Gaussian mean 就会跟着偏,最终影响重建质量。
我们的想法其实很直接:
既然单次 warp 得到的深度概率不够可靠,那就不要只做一次,而是把深度概率估计做成一个“迭代增强”的过程。
这就是 IDESplat 的核心思路:
通过 iterative depth probability estimation,让模型在多轮 warp 中不断强化高置信度的深度候选,逐步得到更精确的深度图,最终预测出更准确的 Gaussian mean。
我们提出了一个模块,叫 Depth Probability Boosting Unit(DPBU)。
在每个 DPBU 里,我们不会只做一次跨视角匹配,而是会做多次 warp,得到多个深度概率结果。然后,不是简单相加,而是采用一种乘法式增强的方式,把这些概率结果融合起来。
这样做的直观意义是:
如果某个深度候选在多次匹配里都表现稳定,它的概率就会被不断放大;
如果某个候选只是偶然匹配上了,但不够稳定,它的概率就会被抑制。
所以,DPBU 本质上是在回答一个问题:
哪些深度位置,是在多轮跨视角几何约束下依然成立的?
除了做概率增强,我们还把整个深度估计设计成一个逐轮细化的过程。
具体来说:
第一轮先在一个较大的深度范围里做粗搜索;
得到初始深度结果后,后续迭代围绕当前结果重新定义更小的搜索范围;
同时逐步提高特征分辨率,让后面的估计更细。
这个过程有点像“先粗定位,再局部精修”。
随着迭代进行,模型会逐渐把注意力集中到更可信的深度区域上,因此得到的深度图也会越来越准确。
多次 warp 会带来一个问题:内存开销。
为了解决这个问题,我们设计了 Warp-Index Epipolar Attention。它不是像常规方法那样保存完整的 dense warping features,而是只记录 warp 对应的索引,再结合稀疏矩阵乘法来完成相关性计算。
这样做的好处是:
可以支持多轮 warp 和迭代优化,同时把内存成本控制在一个更合理的范围内。
除了 Gaussian mean 之外,其他 Gaussian 参数的预测也很重要。为此,我们设计了 Gaussian Focused Module(GFM)。
它的作用可以简单理解为:
在特征交互时,不是让所有 Gaussian token 都同等参与,而是尽量筛选出更相关的 token 来做注意力计算,减少无关信息带来的噪声。
这一步进一步提升了特征表达质量,也有助于最终重建效果。

图:IDESplat 整体网络架构
第一,
我们提出了一个新的 generalizable 3DGS 框架 IDESplat,把深度估计从“单次预测”改成了“迭代增强”。
第二,
我们设计了 DPBU,通过多次 warp 结果的乘法式融合,提升深度概率估计的可靠性。
第三,
我们构建了一个逐步缩小深度搜索范围、逐步提升特征分辨率的迭代深度估计过程,使深度预测更细、更稳。
第四,
我们设计了 Gaussian Focused Module,进一步提升 Gaussian 特征交互的有效性。
实验结果表明,这个思路不仅有效,而且在性能和泛化上都比较突出。

图:深度图可视化对比(IDESplat vs 其他方法)
在 RealEstate10K 上,IDESplat 的 PSNR 达到 27.80 dB,相比 DepthSplat 提升了 0.33 dB。
更重要的是,我们的方法参数量只有对方的 10.7%,内存占用也更低。
在 ACID 上,IDESplat 也取得了更好的结果。
而在跨数据集测试中,模型从 RE10K 直接迁移到 DTU 时,PSNR 还能比 DepthSplat 高 2.95 dB,说明它并不只是对单一数据集有效,而是真的具备更强的几何建模和泛化能力。

图:IDESplat 新视角合成效果展示
这篇工作最想说明的一点其实是:
对于 generalizable 3DGS 来说,瓶颈往往不只是渲染本身,而是前面的深度概率估计是否足够可靠。
IDESplat 本质上是在做一件事:
把原来依赖单次 warp 的深度预测,变成一个多轮确认、逐步收敛的过程。
当深度图变得更准确之后,Gaussian mean 的预测自然会更准,最终带来更好的场景重建和新视角合成效果。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。