0
| 本文作者: 陈淑瑜 | 2026-04-24 18:38 | 专题:CVPR 计算机视觉与模式识别会议 |
视觉重定位(Visual Relocalization)是机器人和自动驾驶的基础能力:当系统回到一个曾经建图的场景时,如何通过单张图像精准估计6自由度相机位姿。这一任务在弱纹理场景、图像数据库稀疏或视角变化剧烈时面临严峻挑战。
现有方法存在三个核心痛点:一是图像稀疏瓶颈,数据库图像有限时,初始位姿检索和粗匹配精度下降明显;二是特征匹配局限,单一特征类型难以兼顾粗匹配的全局视角覆盖与精细匹配的局部精度要求;三是几何建模挑战,传统方法在像素级细粒度匹配中难以捕捉复杂场景几何细节,尤其是在弱纹理或高遮挡区域。
SplatHLoc 提出了一个创新性解决方案:利用特征3D高斯泼溅(Feature Gaussian Splatting,FGS)在场景中凭空生成离查询图像最近的虚拟视点,既弥补了数据库稀疏的不足,又通过混合粗细特征匹配实现了高精度位姿估计。

SplatHLoc 的核心是虚拟对齐管线,将 FGS 渲染能力与多阶段特征匹配紧密结合。
利用全局图像描述符进行初始粗检索,通过几何验证筛选可靠的参考图像。关键创新在于引入 FGS 渲染,在候选位置生成多种虚拟视角图像,并对这些虚拟视角重复检索和几何验证,最终选出与查询视角最接近的参考图像。这一步有效弥补了数据库图像稀疏的缺陷。
采用粗细两阶段匹配策略:粗匹配阶段利用 FGS 渲染特征建立大尺度对应关系,缓解稀疏观测带来的不确定性;精细匹配阶段引入半稠密匹配器提取高分辨率细粒度特征,实现像素级几何对齐。两种特征互补,既保证了宽泛的对应点覆盖,又确保了局部匹配精度。
基于粗到细匹配建立2D-3D对应关系,通过 PnP + RANSAC 估计初始6-DoF位姿;随后渲染新颜色图和深度图,再次进行特征匹配更新对应关系,多轮迭代优化直至收敛。迭代机制使位姿估计精度随优化轮次稳定提升。
SplatHLoc 最核心的创新在于使用 FGS 在三维场景中凭空生成任意虚拟视角,并将其纳入检索和匹配流程。这一设计将数据库图像数量这一传统制约因素彻底突破,即使在数据库极度稀疏的场景下也能保持高精度定位。
在 7-Scenes、12-Scenes、Cambridge Landmarks 三个主流重定位基准数据集上,SplatHLoc 在中值平移误差与旋转误差指标上全面优于结构化方法、回归方法及 NeRF/GS 类渲染方法,展现了混合特征匹配策略的综合优势。
SplatHLoc 是较早将 FGS 渲染特征与经典视觉重定位框架深度结合的工作,证明了神经渲染不仅可用于新视角合成,还能作为动态数据增强工具改进传统几何任务。这一思路有望延伸至SLAM、AR持久化定位等更多应用场景。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
原文链接:https://arxiv.org/abs/2026.splathiloc
解读来源:https://www.cnblogs.com/gooutlook/p/19821462
雷峰网版权文章,未经授权禁止转载。详情见转载须知。