原文作者:公众号“视觉语言导航”
原文链接:https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ
- 作者:Vansh Garg¹†, Rohit Jayanti¹∗, Krish Pandya¹∗, Sarthak Chittawar¹∗, Siddharth Tourani²,³, Muhammad Haris Khan³, Sourav Garg¹‡, Madhava Krishna¹‡
- 单位:¹印度海德拉巴国际信息技术研究所机器人研究中心,²德国海德堡大学,³穆罕默德·本·扎耶德人工智能大学
- 论文标题:MASt3R-Nav: WayPixel Navigation in Relative 3D Maps
- 论文链接:https://arxiv.org/abs/2605.24111
- 项目主页:https://mast3r-nav.github.io/
- 代码链接:https://github.com/vanshg1729/mast3r-nav
研究背景

视觉导航是自主机器人、智能移动设备的核心能力,而环境表征方式直接决定导航精度、鲁棒性与落地门槛。当前主流视觉导航方案各有致命短板,始终难以兼顾精度、效率与通用性:
? 经典全局度量3D地图: 依托占据栅格、SLAM重建全局一致几何地图,虽能实现精准路径规划,但高度依赖高精度全局位姿配准、完整3D点云重建,算力开销大、对环境变化敏感,一旦匹配误差累积直接导航失效。
? 图像相对拓扑导航: 以关键帧图像为地图节点,依靠帧间视觉相似度构建拓扑边,完全弱化三维几何约束。优势是轻量化,但功能极度受限,仅能实现简单示教-复现,无法自主规划新路径、应对未知岔路与场景变化。
? 物体相对语义导航: 将环境抽象为柜子、墙面、桌椅等语义物体,以物体为子目标做路径规划。虽能提升规划容错性,但过度语义抽象丢失底层几何细节,墙面边界、斜坡、微小障碍物等信息被抹平,极易出现决策偏差、走错路线、碰撞风险。
除此之外,现有方案普遍存在规划与控制割裂痛点:控制器只能接收单一粗粒度子目标,没有连续的局部代价梯度引导,无法自主修正规划路径的微小误差,复杂室内场景适应性极差。 在此背景下,论文立足像素级局部相对几何,跳出全局重建与高层抽象的固有思维,打造全新的像素级导航范式。
主要贡献

- 全新像素级地图表征: 提出MASt3R-Nav拓扑导航流水线,构建像素-相对3D连通性地图,仅利用像素间局部相对几何关系,无需全局坐标一致性、无需精准位姿估计、无需额外深度传感器,大幅降低建图与导航门槛。
- 首创WayPixel代价图中间表征: 设计稠密像素级WayPixel Costmap,作为路径规划与控制器的通用接口。完整保留墙面、坡度、遮挡物等精细几何梯度,弥补图像级、物体级表征细节丢失的硬伤。
- 定制化PixelReact学习控制器: 专为WayPixel代价图设计轨迹预测控制器,利用像素稠密代价梯度自主修正路径偏差,对规划瑕疵具备强鲁棒性,精准输出机器人局部鸟瞰视角轨迹路点。
- 全场景严苛验证: 在4类高难度导航任务中全面超越GNM、ObjectReact等SOTA算法;仿真训练模型可直接部署真实P3DX移动机器人,实现零微调仿真到现实迁移,落地实用性拉满。
研究方法
MASt3R-Nav整体架构分为骨干模型、离线建图、在线执行、控制器训练四大核心环节,同时引入图结构精简策略,在保证几何精度的前提下严控计算开销。

1. 核心骨干:MASt3R 3D基础模型
全程采用冻结预训练的MASt3R作为视觉感知骨干,输入任意RGB图像对,即可输出两大核心能力:
定义像素与之间3D欧氏距离:
仅靠单目RGB图像+基础模型,就能获取可靠的相对三维几何,摆脱硬件依赖。
2. 离线建图:像素级拓扑地图构建
机器人遍历环境采集图像序列,构建像素拓扑图 :
- 节点N:只保留参与跨帧匹配的有效像素,过滤无几何关联冗余像素;
- 帧间边:不同图像中匹配的同一物理像素,代价置为0,实现跨帧坐标关联;
- 帧内边:同一张图像内的有效像素互连,代价由3D欧氏距离决定;
为解决百万级像素图计算爆炸问题,采用三重优化:仅保留有匹配像素、用欧氏最小生成树EMST替代全连接、运行时动态激活孤立像素,在保留几何完整性的同时,大幅压缩图规模。
3. 在线执行:定位 + WayPixel稠密代价图生成

这是导航的核心环节,三步生成全覆盖像素代价梯度:
- 像素级定位:当前实时图像与历史子图做稠密匹配,选取匹配度最高的子图完成机器人定位;
- 稀疏代价初始化:用Dijkstra算法预计算地图所有像素到目标的最短路径代价,实时匹配像素直接继承地图像素规划代价;
- 全局代价传播:将稀疏匹配像素的代价,扩散至整张图像所有未匹配像素,生成WayPixel代价图。
最终画面中每一个像素都拥有指向目标的连续代价梯度,为控制器提供细粒度决策依据。
4. 训练阶段:PixelReact控制器
沿用成熟的模仿学习框架,网络由卷积编码器+MLP解码器组成:
- 编码器输入WayPixel代价图,提取稠密几何特征;
- 以真实最优路径为监督,采用L2回归损失训练,完美拟合最优导航轨迹,兼容各类室内布局。
实验设置
为公平对比算法性能,论文搭建标准化、多维度的实验评测体系:
- 评测数据集:采用HM3D-IIN数据集验证集,包含36个独立室内场景,单场景设置独立导航任务,覆盖住宅、办公等复杂环境;
- 陌生目标导航:前往见过但未走到的目标,需自主规划新路线;
- 反向遍历:逆着历史轨迹完成导航,考验大视角匹配能力;
- 核心评估指标采用机器人导航通用权威指标:SPL(路径加权成功率)、SSPL(软路径加权成功率),兼顾任务完成度与路径效率;
- 成功判定标准:机器人300步内抵达目标1米范围内,判定导航成功;
- 软硬件部署:仿真基于Habitat平台;真实硬件采用P3DX移动机器人+RealSense RGB相机;算法评测服务器配置AMD Ryzen 9 7950X + RTX A4000 16GB。
实验结果
1. 表征维度 ablation 对比

单纯更换图像匹配器,无法提升物体级导航上限;而像素级WayPixel表征+PixelReact控制器组合,SPL从传统物体级51.51%飙升至81.77% ,证明像素细粒度几何表征才是性能突破关键。
2. 与SOTA算法全方位PK

MASt3R-Nav在轨迹模仿、陌生目标、捷径规划三大任务上大幅领跑:
- 模仿任务SPL高达93.94% ,超过往最优模型10个百分点;
- 仅反向遍历任务受大视角匹配歧义影响性能略低,四项任务平均SPL 52.79% ,综合实力断层领先。
3. 图结构效率权衡

采用EMST精简策略后,帧内边数从466万骤减至2.4万,Dijkstra规划耗时从9.0s压缩至1.4s,算力大幅下降的同时,导航性能无任何衰减;冗余全像素匹配反而会引入噪声、降低成功率,充分验证稀疏像素几何的有效性。
4. 大规模环境可扩展性

环境从1层扩展至3层大型办公楼宇,算法运行耗时、内存占用均呈线性增长;即便拥有8万像素节点的超大地图,总运行时长不足5分钟,存储仅540.18MB,完全支持大型园区、楼宇规模化部署。
5. 真实机器人落地实测

仅在仿真HM3D数据集训练的模型,无需任何微调,可直接部署真实未知室内环境。机器人依托WayPixel代价图精准感知障碍物、预判通行方向,平稳规划轨迹抵达目标,仿真迁移现实能力极强。
总结与未来工作
研究核心总结
MASt3R-Nav的诞生,彻底打破了机器人视觉导航的固有设计思路:
- 摒弃全局3D重建与繁琐位姿标定,依托像素相对3D连通性轻量化建图;
- WayPixel代价图锁住精细几何细节,解决物体级表征抽象过度、决策失误痛点;
- PixelReact控制器利用稠密梯度容错规划误差,导航更稳定、更智能;
- 兼顾精度、算力、可扩展性与落地性,仿真、真实机器人双场景全面验证价值。
未来研究方向
- 探索像素几何+物体语义混合表征,融合两者优势,补齐反向轨迹导航短板;
- 优化MASt3R大视角图像匹配策略,提升极端视角、低重叠场景下的定位规划精度;
- 进一步轻量化模型与图结构,适配小型无人机、家用服务机器人等低算力终端设备。
雷峰网(公众号:雷峰网)