IDESplat：用于可泛化 3D 高斯泼溅的迭代深度概率估计方法｜ CVPR 2026

本文作者：陈淑瑜

2026-05-27 15:35

专题：CVPR 计算机视觉与模式识别会议

导语：这篇论文主要想解决一个很实际的问题：如何更准确地估计深度进而学习到更准确的高斯参数，实现更准确的三维场景重建。

来源：知乎博主“TopR”

原文链接：https://zhuanlan.zhihu.com/p/2027411504710922571

论文链接：https://arxiv.org/abs/2601.03824

项目代码：https://github.com/CVL-UESTC/IDESplat

分享我们最近的一篇关于 Generalizable 3D Gaussian Splatting 的工作：IDESplat。这篇论文主要想解决一个很实际的问题：如何更准确地估计深度进而学习到更准确的高斯参数，实现更准确的三维场景重建。

1. 问题到底出在哪？

在 generalizable 3DGS 里，网络需要直接预测一组 Gaussian 参数来完成场景重建和新视角合成。

其中最关键、也最难预测的，其实是 Gaussian 的位置（mean）。

现有很多方法通常会先预测深度，再把深度反投影成 3D 点，作为 Gaussian 中心。这个思路本身没有问题，但难点在于：深度估计够不够准。

而现有方法里，一个比较普遍的限制是：它们大多只依赖单次 warp 来估计深度概率。这样做虽然直接，但对跨视角几何信息的利用其实并不充分，所以预测出来的深度图往往会比较粗，也不够稳定。深度一旦不准，后面的 Gaussian mean 就会跟着偏，最终影响重建质量。

2. 我们的核心想法是什么？

我们的想法其实很直接：

既然单次 warp 得到的深度概率不够可靠，那就不要只做一次，而是把深度概率估计做成一个“迭代增强”的过程。

这就是 IDESplat 的核心思路：

通过 iterative depth probability estimation，让模型在多轮 warp 中不断强化高置信度的深度候选，逐步得到更精确的深度图，最终预测出更准确的 Gaussian mean。

3. IDESplat 具体是怎么做的？

（1）用 DPBU 做深度概率增强

我们提出了一个模块，叫 Depth Probability Boosting Unit（DPBU）。

在每个 DPBU 里，我们不会只做一次跨视角匹配，而是会做多次 warp，得到多个深度概率结果。然后，不是简单相加，而是采用一种乘法式增强的方式，把这些概率结果融合起来。

这样做的直观意义是：

如果某个深度候选在多次匹配里都表现稳定，它的概率就会被不断放大；

如果某个候选只是偶然匹配上了，但不够稳定，它的概率就会被抑制。

所以，DPBU 本质上是在回答一个问题：

哪些深度位置，是在多轮跨视角几何约束下依然成立的？

（2）把深度估计做成逐步细化的过程

除了做概率增强，我们还把整个深度估计设计成一个逐轮细化的过程。

具体来说：

第一轮先在一个较大的深度范围里做粗搜索；

得到初始深度结果后，后续迭代围绕当前结果重新定义更小的搜索范围；

同时逐步提高特征分辨率，让后面的估计更细。

这个过程有点像“先粗定位，再局部精修”。

随着迭代进行，模型会逐渐把注意力集中到更可信的深度区域上，因此得到的深度图也会越来越准确。

（3）进一步提升效率：Warp-Index Epipolar Attention

多次 warp 会带来一个问题：内存开销。

为了解决这个问题，我们设计了 Warp-Index Epipolar Attention。它不是像常规方法那样保存完整的 dense warping features，而是只记录 warp 对应的索引，再结合稀疏矩阵乘法来完成相关性计算。

这样做的好处是：

可以支持多轮 warp 和迭代优化，同时把内存成本控制在一个更合理的范围内。

（4）针对其他 Gaussian 参数，我们引入了 GFM

除了 Gaussian mean 之外，其他 Gaussian 参数的预测也很重要。为此，我们设计了 Gaussian Focused Module（GFM）。

它的作用可以简单理解为：

在特征交互时，不是让所有 Gaussian token 都同等参与，而是尽量筛选出更相关的 token 来做注意力计算，减少无关信息带来的噪声。

这一步进一步提升了特征表达质量，也有助于最终重建效果。

IDESplat：用于可泛化 3D 高斯泼溅的迭代深度概率估计方法｜ CVPR 2026

图：IDESplat 整体网络架构

4. 这篇工作的关键贡献可以概括为 4 点

第一，

我们提出了一个新的 generalizable 3DGS 框架 IDESplat，把深度估计从“单次预测”改成了“迭代增强”。

第二，

我们设计了 DPBU，通过多次 warp 结果的乘法式融合，提升深度概率估计的可靠性。

第三，

我们构建了一个逐步缩小深度搜索范围、逐步提升特征分辨率的迭代深度估计过程，使深度预测更细、更稳。

第四，

我们设计了 Gaussian Focused Module，进一步提升 Gaussian 特征交互的有效性。

5. 实验结果说明了什么？

实验结果表明，这个思路不仅有效，而且在性能和泛化上都比较突出。

IDESplat：用于可泛化 3D 高斯泼溅的迭代深度概率估计方法｜ CVPR 2026

图：深度图可视化对比（IDESplat vs 其他方法）

在 RealEstate10K 上，IDESplat 的 PSNR 达到 27.80 dB，相比 DepthSplat 提升了 0.33 dB。

更重要的是，我们的方法参数量只有对方的 10.7%，内存占用也更低。

在 ACID 上，IDESplat 也取得了更好的结果。

而在跨数据集测试中，模型从 RE10K 直接迁移到 DTU 时，PSNR 还能比 DepthSplat 高 2.95 dB，说明它并不只是对单一数据集有效，而是真的具备更强的几何建模和泛化能力。

IDESplat：用于可泛化 3D 高斯泼溅的迭代深度概率估计方法｜ CVPR 2026

图：IDESplat 新视角合成效果展示

6. 我们想说明的核心结论是什么？

这篇工作最想说明的一点其实是：

对于 generalizable 3DGS 来说，瓶颈往往不只是渲染本身，而是前面的深度概率估计是否足够可靠。

IDESplat 本质上是在做一件事：

把原来依赖单次 warp 的深度预测，变成一个多轮确认、逐步收敛的过程。

当深度图变得更准确之后，Gaussian mean 的预测自然会更准，最终带来更好的场景重建和新视角合成效果。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章

IDESplat：用于可泛化 3D 高斯泼溅的迭代深度概率估计方法 ｜ CVPR 2026

1. 问题到底出在哪？

2. 我们的核心想法是什么？

3. IDESplat 具体是怎么做的？

（1）用 DPBU 做深度概率增强

（2）把深度估计做成逐步细化的过程

（3）进一步提升效率：Warp-Index Epipolar Attention

（4）针对其他 Gaussian 参数，我们引入了 GFM

4. 这篇工作的关键贡献可以概括为 4 点

5. 实验结果说明了什么？

6. 我们想说明的核心结论是什么？

CVPR 计算机视觉与模式识别会议

IDESplat：用于可泛化 3D 高斯泼溅的迭代深度概率估计方法｜ CVPR 2026