0
| 本文作者: 陈淑瑜 | 2026-04-24 15:23 | 专题:CVPR 计算机视觉与模式识别会议 |
3D 高斯泼溅(3DGS)凭借其高质量实时渲染能力,已成为新视角合成领域的主流方法。然而随着各类变体涌现,学术界面临一个困境:这些工作往往混杂了实现层面的工程优化与算法层面的创新,导致难以公平评估哪些改进真正有价值,学术比较缺乏统一基准。
与此同时,3DGS 的训练耗时(通常30分钟以上)成为快速迭代实验的瓶颈,显存占用(12GB+)也限制了其在低资源环境下的应用。社区急需一个集成了所有有效训练加速技巧、标准化的高性能基线——既不改变核心算法,又能大幅提升效率。
Faster-GS 应运而生,定位为不牺牲质量、不改写核心算法、仅通过工程与数值优化来提速的新标杆,为后续 3DGS 变体研究提供了可靠的效率对比基准。
Faster-GS 的优化策略围绕减少内存访问和提高计算效率两条主线展开,分为三个层次:
第一层:基础实现稳定性改进修复了原始3DGS反向传播中的数值稳定性问题(精细处理退化四元数、使用从前往后的 Alpha Blending 梯度计算),并优化了显存中2D均值梯度和可见性掩码的显式处理,为上层优化奠定基础。
第二层:整合近期最优改进系统整合了社区内已验证有效的改进:采用轴对齐矩形加不透明度截断的紧致包围盒,引入类似 StopThePop 的 Tile 精确剔除,借鉴 SplatShop 的两阶段排序,以及 Taming-3DGS 风格的按高斯并行反传(原子操作减少256倍)并配合共享内存进一步降低开销。
第三层:新型细化优化(核心贡献)
(1)融合 Adam 更新:开发自定义 CUDA 融合 Adam 实现,利用快速数学运算和 FMA 指令加速参数更新;
(2)局部性保持增密:定期对高斯进行 Z-order(Morton Code)排序,确保空间相邻的数据在内存中也相邻,显著提升缓存命中率;
(3)反传与优化器完全融合:将参数更新直接融合进反向传播 Kernel,省去单独调用优化器 Step() 的开销及额外梯度存储缓冲区。

亮点一:最高5倍训练加速,质量零损失在 Mip-NeRF 360 数据集 RTX 4090 测试中,Faster-GS 相比原始 3DGS 平均加速 4.1倍,特定场景峰值超过 5.2倍,平均重建时间缩短至约 163 秒。而在此过程中,高斯的质量和数量完全不变,视觉效果完整保持,实现了鱼与熊掌兼得。
亮点二:显存占用减少约30%通过两阶段排序和反传优化器融合等技术,显存使用量减少约 30%,有效拓展了3DGS在资源受限硬件上的应用范围,为边缘端部署奠定基础。
亮点三:无缝扩展至4D动态场景论文展示了 Faster-GS 可无缝迁移到 4D Gaussian Splatting(动态场景),说明其优化思路具有良好的通用性和可扩展性,为3DGS在视频和动态场景领域的应用提供了高效引擎,是 3DGS 研究者不可多得的工程范本。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
原文链接:https://fhahlbohm.github.io/faster-gaussian-splatting
解读来源:https://blog.csdn.net/qq_60587145/article/details/158742148
雷峰网版权文章,未经授权禁止转载。详情见转载须知。