0
| 本文作者: 陈淑瑜 | 2026-05-26 14:37 | 专题:ICRA 国际机器人与自动化会议 |
来源:公众号“新机器视觉”
原文链接:https://mp.weixin.qq.com/s/XZXl8Inx5Rh14dF0o_JMTA

题目:GGD-SLAM: Monocular 3DGS SLAM Powered by Generalizable Motion Model for Dynamic Environments
作者: Yi Liu, Haoxuan Xu, Hongbo Duan, Keyu Fan, Zhengyang Zhang, Peiyu Zhuang, Pengting Luo, Houde Liu
来源: IEEE International Conference on Robotics and Automation(ICRA 2026)
论文链接: https://arxiv.org/abs/2604.12837
概述
视觉SLAM算法通过探索三维高斯点扩散(3D Gaussian Splatting,3DGS)表示方法实现了显著改进,尤其在生成高保真密集地图方面表现突出。然而,这些算法依赖于静态环境假设,在动态环境中性能会大幅下降。本文提出的GGD -SLAM框架采用可泛化的运动模型,无需预定义语义标注或深度输入即可应对动态环境中的定位与密集地图构建挑战。具体而言,该系统采用先进先出(First-In-First-Out,FIFO)队列管理传入帧,并通过顺序注意力机制实现动态语义特征提取;同时整合动态特征增强器以分离静态与动态成分。此外,为最小化动态干扰项对静态成分的影响,我们提出利用静态信息采样填补被遮挡区域的方法,并设计了面向动态环境的抗干扰结构相似性(
Structure Similarity Index Measure,SSIM)损失函数,显著提升了系统的鲁棒性。基于真实世界动态数据集的实验表明,所提系统在动态场景下的相机位姿估计和密集地图重建任务中均达到业界领先水平。

图1 研究动机:左图:DyPho‑SLAM 需要特定语义标签和深度输入来去除动态物体;右图:WildGS‑SLAM中的ML受限于单一场景的渲染效果;本文提出的GGD‑SLAM引入了通用运动模型,无需语义标签或深度输入,减少了对单场景3DGS渲染损失监督的依赖。
研究方法
给定单目相机(内参已知)以固定帧率拍摄、包含动态物体的图像序列 I={Ii}i=1N(Ii∈RH×W×3),本文目标是求解对应的相机位姿矩阵 T={Ti}i=1N,并逐帧更新高斯参数 G={μj,αj,∑j,cj}j=1n(G)。
高斯参数由空间位置 μj、不透明度 αj、协方差矩阵 ∑j 和基于球谐函数的颜色系数 cj 共同表征。求解 T 和 G 需满足两个核心要求:1)最小化绝对轨迹误差的均方根值;2)实现最优的高斯渲染效果,以精准表征静态环境。
所提 GGD-SLAM 算法的整体流程通过一系列关联模块完成动态环境下的定位与稠密建图任务,整体框架如图 2 所示。

图 2 GGD-SLAM 算法流程图
本文核心创新在于设计适用于时序图像序列的动态语义提取通用运动模型,专门面向增量式 SLAM 系统(算法 1)。该模型无需单场景在线训练,可作为 GS-SLAM 系统的强鲁棒先验。
1)数据预处理
输入图像 It 经预训练 DINOv2 特征提取器,得到图像特征 xt=DINOv2(It)∈RH′×W′×C。其中,H′、W′ 为分块嵌入后特征图的空间下采样维度,C 为通道维度。
但 xt 仅捕捉 It 的结构特征与静态语义信息,缺乏建模场景演化所需的时序动态信息。为此,引入先进先出队列 Qt,逐帧聚合时序特征用于动态语义提取,更新规则如下:

队列未满时,在前端补零向量以维持时序一致性。动态语义由 L 帧间时序变化决定 ——L 越大,运动推理的时序上下文越丰富。
2)时序注意力机制
获取当前帧结构特征 xt 与历史特征队列 Qt 后,通过注意力机制融合上下文信息:


其中,Qt∈R(1×H′×W′)×C为当前帧特征生成的查询向量;Kt,Vt∈R(L×H′×W′)×C由历史特征生成,用于构建时序检索索引,实现跨帧特征匹配;输出Fattn,t∈RH′×W′×C为融合时序信息的增强特征,用于通用运动语义分割。
为强化动静分离效果,将 Fattn,t 输入动态头与静态头两个独立分支,得到解耦特征:动态属性增强系数 D∈RH′×W′×C、静态分量抑制系数 S∈RH′×W′×C。再通过门控注意力机制融合:

式中,⊙ 为哈达玛积,平衡系数 α 为可学习参数(初始值 0.5)。增强特征 Fenh,t 与原始结构特征 xt 拼接后输入前馈网络,输出低分辨率动态概率图 Mraw,t∈RH′×W′;经双线性插值得到全分辨率动态概率图 Mt∈RH×W,像素值大小直接表示该位置为动态区域的概率。
3)模型训练
为训练能捕捉时空特征的通用运动模型,基于真实动态掩码 Mgt,t∈RH×W 设计监督损失函数:


基础损失Lbase:计算 Mgt,t 与 Mt 的像素级绝对误差,保证几何精度。
正则损失Lreg:引入二值熵惩罚项:

针对 0.5 附近的模糊预测,在中间值处梯度最大,推动输出收敛至 {0,1}。
Dice 损失 Ldice:弥补像素级损失对结构完整性捕捉不足的缺陷:

概率化输出易引入动态关联错误,模糊边缘会降低跟踪精度。推理阶段采用大津自适应阈值法对概率图二值化,得到原始掩码 Mraw,t;再用圆盘形结构元 Kr 做形态学膨胀,细化动态物体边缘,输出通用动态先验二值掩码 Mt。
基于现有研究基础,引入 Metric3D-v2 输出的尺度感知单目深度估计 Dest∈RH×W,利用其跨场景零样本泛化能力提升位姿估计鲁棒性。
位姿估计采用 DROID-SLAM 的稠密光束平差法(DBA)框架,构建帧图 G=(V,E):V 为关键帧集合,E 为关键帧间共视约束。目标是优化相机位姿 T[∗],并估计关键帧单目深度图 d[∗]∈RH×W。
动态点会导致因子图构建错误,降低计算效率与系统性能。为此,利用通用运动模型输出动态先验,完全剔除动态区域残差:提取静态分量 S[∗]=1−M[∗],∑[∗] 为 DROID-SLAM 基础协方差权重,将动态干扰转化为可处理的优化约束:

第一项:DROID-SLAM 单目位姿估计目标,动态区域残差权重置零,排除非静态干扰、提升效率;
第二项:深度监督损失,利用神经深度预测约束深度估计;
第三项:轨迹平滑正则化,惩罚相邻帧间位姿突变。
1 )通用运动模型引导的不确定性估计
基于WildGS-SLAM的不确定性感知框架,将特征 xt输入浅层MLP P,预测不确定性图 Ut=P(xt)∈RH×W。该方法可处理模糊干扰、提升渲染质量,但过度依赖单场景3DGS渲染损失,单帧输入易导致动态误判。
为此,融合聚合时序特征的通用运动模型,将其作为时序先验嵌入原框架:

L3DGS:渲染图像与输入图像的重建误差,定义见式 (12);
LregU:不确定性正则项,LregU=logUt,防止不确定性值趋于无穷;
Lprior:先验模型误差:

式中,Tmax 为动态区域目标不确定性阈值。该损失缓解不确定性感知方法的动态误判,同时兼容噪声、光照变化等静态干扰。
2)增量式高斯地图构建
获取新关键帧后,增量式创建高斯以优化地图:对图像中新观测特征点,初始化高斯参数 —— 颜色 c∗ 取对应像素颜色,空间位置 μ∗ 由像素反投影得到,不透明度 α∗ 初始化为 0.5,半径初始化为 0.1。
当帧中存在动态物体时,通过动态区域邻域随机采样维持遮挡区域几何连续性:为当前帧静态高斯的二维坐标 (μ∗,x,μ∗,y) 构建 KD 树;对动态点 μi∈Mt,查询其 k 近邻静态高斯,随机采样邻域内静态点,替换动态点的深度与颜色属性:

再对遮挡点执行尺度扩张与不透明度增强,缓解遮挡区域点云稀疏导致的优化效率下降问题
3)高斯参数更新
高斯地图渲染RGB图像流程:按视角深度对3D 高斯排序,通过 α 混合投影渲染像素颜色 Ir 与深度 Dr:

通过梯度下降迭代更新高斯参数,最小化建图损失:

L3DGS:渲染图像与输入图像、深度估计的残差,通过不确定性图逐元素加权:

Liso:尺度正则项,抑制稀疏区域伪影;
Lssim:传统SSIM损失计算局部亮度、对比度、空间相关性,动态场景中易受干扰。传统方法先算SSIM 图再剔除动态区域,仍会残留污染(如图3)。本文提出动态自适应SSIM:用单位卷积核 wunit 与静态分量St做哈达玛积 与卷积,生成自适应核 wad(O) 并统计有效静态像素数 Nad(O),仅在纯静态区域计算 SSIM:

对比度与空间相关性计算同理,最终得到纯净的动态自适应 SSIM 图。

图 3 动态自适应 SSIM 示意图
实验
为验证本文提出的通用动态语义提取网络,以 fr3/w/half 序列为例进行可视化(图4)。基于单帧图像的特定标签分割在小目标、快速运动模糊物体、相机大幅运动场景下易出现误分类;WildGS‑SLAM 的不确定性感知方法在背景区域极易误判,导致有效图像信息不足,进而降低定位精度与背景重建质量。相比之下,本文的通用动态语义提取网络可基于历史帧提取运动物体语义,提取效果优异。仅使用基础损失进行像素级学习会限制结构特征保留,产生明显噪声;在第 800 帧中,椅子在单帧下看似静止,但在长期历史观测中存在运动,模型可准确将其判定为动态。

图 4:不同动态提取器在 fr3/w/half 序列上的定性结果
表 1:在 TUM 与 Bonn 挑战性数据集动态场景下的相机跟踪结果

表1给出 TUM 与波恩动态场景下的相机跟踪结果。基于 RGBD 的方法因深度传感器提供精确绝对尺度,定位精度表现较强。尽管 Dy3DGS‑SLAM、WildGS‑SLAM 等单目动态 SLAM 系统具备动态物体处理能力,但因缺乏精准的动态干扰识别方法、引入错误数据关联,性能仍低于本文方法。本文方法结合高效的、面向增量式 SLAM 输入的通用运动模型,在 fr3/w/half、bonn/crowd2 等高动态序列中实现了超越 RGBD 方法的跟踪精度。在 TUM 与波恩数据集上的消融实验(表2)验证了各模块的有效性:通用先验、大津二值化、平滑项均能提升系统鲁棒性。
表 2:在 Bonn RGB‑D 动态数据集上的消融实验

将本文方法与开源 3DGS SLAM 算法对比,评估建图能力。如图 5 所示:DG‑SLAM、DyPho‑SLAM 需要语义标签与深度输入;MonoGS、Splatam 在动态干扰下性能严重下降;WildGS‑SLAM 依赖 3DGS 渲染,相机大幅运动后背景渲染效果差,导致动态物体误判、系统性能下降,且边缘物体遮挡去除不彻底,残留伪影。本文 GGD‑SLAM 可有效消除动态干扰,同时保持高质量背景渲染。

图 5:当前主流高斯溅射 SLAM 方法的渲染结果对比
如表3 所示,本文方法在 TUM、波恩动态序列上,单目 3DGS 类方法中取得最优性能。针对干扰自适应 SSIM 与静态高斯 KD‑Tree 遮挡修复的消融实验(表4)验证了建图模块的有效性。
表 3:在 TUM 与 Bonn 动态数据集上的建图结果

表 4:干扰自适应 SSIM 与静态高斯 KD‑Tree 遮挡修复方法的消融实验

在更通用的 Wild‑SLAM 数据集上验证本文的通用动态语义提取网络(图 6)。模型成功分割各类运动物体,引导不确定性生成,实现高质量渲染。与 TUM、波恩数据集相比,Wild‑SLAM 数据集图像分辨率更高、相机运动更平缓,3DGS 渲染质量更易达到较高水平。在此条件下,不确定性感知机制可有效适配,GGD‑SLAM 与 WildGS‑SLAM 均取得极高性能。

图 6:本文 GGD‑SLAM 在 Wild‑SLAM 数据集上的效果展示
结论
本文提出了GGD‑SLAM,一种具备泛化能力且鲁棒的框架,可在动态环境中实现定位与真实感稠密建图。
为解决动态目标剔除难题,本文提出一种泛化型动态提取器,该方法利用历史帧队列上的注意力机制提取动态语义。此外,本方法还与背景一致性建图流程相结合,以最小化动态目标对静态分量的影响。
大量实验表明,GGD‑SLAM 在真实感建图方面显著优于现有 SOTA SLAM 方法。
未来工作中,我们旨在实现动态目标运动的实时重建与完全遮挡区域的修复,同时保证静态场景的稳定性。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
本专题其他文章