Faster-GS——系统性加速3D高斯泼溅训练的新基准 | CVPR 2026

本文作者：陈淑瑜

2026-04-24 15:23

专题：CVPR 计算机视觉与模式识别会议

导语：Faster-GS 牺牲质量、不改写核心算法、仅通过工程与数值优化来提速的新标杆，为后续 3DGS 变体研究提供了可靠的效率对比基准。

一、研究背景

3D 高斯泼溅（3DGS）凭借其高质量实时渲染能力，已成为新视角合成领域的主流方法。然而随着各类变体涌现，学术界面临一个困境：这些工作往往混杂了实现层面的工程优化与算法层面的创新，导致难以公平评估哪些改进真正有价值，学术比较缺乏统一基准。

与此同时，3DGS 的训练耗时（通常30分钟以上）成为快速迭代实验的瓶颈，显存占用（12GB+）也限制了其在低资源环境下的应用。社区急需一个集成了所有有效训练加速技巧、标准化的高性能基线——既不改变核心算法，又能大幅提升效率。

Faster-GS 应运而生，定位为不牺牲质量、不改写核心算法、仅通过工程与数值优化来提速的新标杆，为后续 3DGS 变体研究提供了可靠的效率对比基准。

二、核心方法

Faster-GS 的优化策略围绕减少内存访问和提高计算效率两条主线展开，分为三个层次：

第一层：基础实现稳定性改进修复了原始3DGS反向传播中的数值稳定性问题（精细处理退化四元数、使用从前往后的 Alpha Blending 梯度计算），并优化了显存中2D均值梯度和可见性掩码的显式处理，为上层优化奠定基础。

第二层：整合近期最优改进系统整合了社区内已验证有效的改进：采用轴对齐矩形加不透明度截断的紧致包围盒，引入类似 StopThePop 的 Tile 精确剔除，借鉴 SplatShop 的两阶段排序，以及 Taming-3DGS 风格的按高斯并行反传（原子操作减少256倍）并配合共享内存进一步降低开销。

第三层：新型细化优化（核心贡献）

（1）融合 Adam 更新：开发自定义 CUDA 融合 Adam 实现，利用快速数学运算和 FMA 指令加速参数更新；

（2）局部性保持增密：定期对高斯进行 Z-order（Morton Code）排序，确保空间相邻的数据在内存中也相邻，显著提升缓存命中率；

（3）反传与优化器完全融合：将参数更新直接融合进反向传播 Kernel，省去单独调用优化器 Step() 的开销及额外梯度存储缓冲区。

Faster-GS——系统性加速3D高斯泼溅训练的新基准 | CVPR 2026

三、亮点总结

亮点一：最高5倍训练加速，质量零损失在 Mip-NeRF 360 数据集 RTX 4090 测试中，Faster-GS 相比原始 3DGS 平均加速 4.1倍，特定场景峰值超过 5.2倍，平均重建时间缩短至约 163 秒。而在此过程中，高斯的质量和数量完全不变，视觉效果完整保持，实现了鱼与熊掌兼得。

亮点二：显存占用减少约30%通过两阶段排序和反传优化器融合等技术，显存使用量减少约 30%，有效拓展了3DGS在资源受限硬件上的应用范围，为边缘端部署奠定基础。

亮点三：无缝扩展至4D动态场景论文展示了 Faster-GS 可无缝迁移到 4D Gaussian Splatting（动态场景），说明其优化思路具有良好的通用性和可扩展性，为3DGS在视频和动态场景领域的应用提供了高效引擎，是 3DGS 研究者不可多得的工程范本。

──────────────────────────────────────────

上述内容包含AI辅助生成，更详细信息参见两个链接

原文链接：https://fhahlbohm.github.io/faster-gaussian-splatting

解读来源：https://blog.csdn.net/qq_60587145/article/details/158742148

雷峰网版权文章，未经授权禁止转载。详情见转载须知。