ICRA 2026 | 像素级相对 3D 地图领航！MASt3R-Nav：打造高精度无全局重建视觉导航新范式

本文作者：吴思梦

2026-06-01 15:19

导语：传统机器人导航依赖严苛的全局三维重建或简化成图像/物体粗粒度表征，丢失精细几何细节、导航容错率极低。ICRA 2026全新力作MASt3R-Nav另辟蹊径

原文作者：公众号“视觉语言导航”

原文链接：https://mp.weixin.qq.com/s/4dTxzJyX4bWfaNjziaQ3nQ

作者：Vansh Garg¹†, Rohit Jayanti¹∗, Krish Pandya¹∗, Sarthak Chittawar¹∗, Siddharth Tourani²,³, Muhammad Haris Khan³, Sourav Garg¹‡, Madhava Krishna¹‡
单位：¹印度海德拉巴国际信息技术研究所机器人研究中心，²德国海德堡大学，³穆罕默德·本·扎耶德人工智能大学
论文标题：MASt3R-Nav: WayPixel Navigation in Relative 3D Maps
论文链接：https://arxiv.org/abs/2605.24111
项目主页：https://mast3r-nav.github.io/
代码链接：https://github.com/vanshg1729/mast3r-nav

研究背景

视觉导航是自主机器人、智能移动设备的核心能力，而环境表征方式直接决定导航精度、鲁棒性与落地门槛。当前主流视觉导航方案各有致命短板，始终难以兼顾精度、效率与通用性：

? 经典全局度量3D地图：依托占据栅格、SLAM重建全局一致几何地图，虽能实现精准路径规划，但高度依赖高精度全局位姿配准、完整3D点云重建，算力开销大、对环境变化敏感，一旦匹配误差累积直接导航失效。

? 图像相对拓扑导航：以关键帧图像为地图节点，依靠帧间视觉相似度构建拓扑边，完全弱化三维几何约束。优势是轻量化，但功能极度受限，仅能实现简单示教-复现，无法自主规划新路径、应对未知岔路与场景变化。

? 物体相对语义导航：将环境抽象为柜子、墙面、桌椅等语义物体，以物体为子目标做路径规划。虽能提升规划容错性，但过度语义抽象丢失底层几何细节，墙面边界、斜坡、微小障碍物等信息被抹平，极易出现决策偏差、走错路线、碰撞风险。

除此之外，现有方案普遍存在规划与控制割裂痛点：控制器只能接收单一粗粒度子目标，没有连续的局部代价梯度引导，无法自主修正规划路径的微小误差，复杂室内场景适应性极差。在此背景下，论文立足像素级局部相对几何，跳出全局重建与高层抽象的固有思维，打造全新的像素级导航范式。

全新像素级地图表征：提出MASt3R-Nav拓扑导航流水线，构建像素-相对3D连通性地图，仅利用像素间局部相对几何关系，无需全局坐标一致性、无需精准位姿估计、无需额外深度传感器，大幅降低建图与导航门槛。
首创WayPixel代价图中间表征：设计稠密像素级WayPixel Costmap，作为路径规划与控制器的通用接口。完整保留墙面、坡度、遮挡物等精细几何梯度，弥补图像级、物体级表征细节丢失的硬伤。
定制化PixelReact学习控制器：专为WayPixel代价图设计轨迹预测控制器，利用像素稠密代价梯度自主修正路径偏差，对规划瑕疵具备强鲁棒性，精准输出机器人局部鸟瞰视角轨迹路点。
全场景严苛验证：在4类高难度导航任务中全面超越GNM、ObjectReact等SOTA算法；仿真训练模型可直接部署真实P3DX移动机器人，实现零微调仿真到现实迁移，落地实用性拉满。

MASt3R-Nav整体架构分为骨干模型、离线建图、在线执行、控制器训练四大核心环节，同时引入图结构精简策略，在保证几何精度的前提下严控计算开销。

全程采用冻结预训练的MASt3R作为视觉感知骨干，输入任意RGB图像对，即可输出两大核心能力：

定义像素与之间3D欧氏距离：

仅靠单目RGB图像+基础模型，就能获取可靠的相对三维几何，摆脱硬件依赖。

机器人遍历环境采集图像序列，构建像素拓扑图：

为解决百万级像素图计算爆炸问题，采用三重优化：仅保留有匹配像素、用欧氏最小生成树EMST替代全连接、运行时动态激活孤立像素，在保留几何完整性的同时，大幅压缩图规模。

这是导航的核心环节，三步生成全覆盖像素代价梯度：

最终画面中每一个像素都拥有指向目标的连续代价梯度，为控制器提供细粒度决策依据。

沿用成熟的模仿学习框架，网络由卷积编码器+MLP解码器组成：

为公平对比算法性能，论文搭建标准化、多维度的实验评测体系：

轨迹模仿：复刻机器人历史遍历路径；
陌生目标导航：前往见过但未走到的目标，需自主规划新路线；
捷径规划：避开原遍历路线，自主寻找更短通行路径；
反向遍历：逆着历史轨迹完成导航，考验大视角匹配能力；
核心评估指标采用机器人导航通用权威指标：SPL（路径加权成功率）、SSPL（软路径加权成功率），兼顾任务完成度与路径效率；
成功判定标准：机器人300步内抵达目标1米范围内，判定导航成功；
软硬件部署：仿真基于Habitat平台；真实硬件采用P3DX移动机器人+RealSense RGB相机；算法评测服务器配置AMD Ryzen 9 7950X + RTX A4000 16GB。