?研究背景:两大行业痛点,催生无地图导航新方案

当下自动驾驶商业化落地进入瓶颈期,核心桎梏集中在高精地图依赖与传统VLN无法适配行车场景两大难题:
- 传统自动驾驶:离开高精地图寸步难行: 市面主流自动驾驶方案全部依赖提前测绘、制作的高精地图,依靠地图预先存储车道、车位、地标信息规划行车路线。但地下车库、临时园区、老旧小路、乡村路段几乎不会投入成本测绘高精地图,车辆驶入后直接丢失导航依据,没法完成点对点自主行驶,尤其自动泊车场景落地困难。同时高精地图测绘、运维成本极高,大幅抬高车企量产成本。
- 传统室内VLN:指令模式不符合人类开车习惯: 经典视觉语言导航(VLN)诞生于室内扫地机器人、机械臂场景,需要使用者提供分步精细化指令,例如「直行穿过大厅→右转驶入第二个房间」。但现实开车中,人类只会下达精简目的地指令,像「开到园区出口、去充电桩停车」,没人能提前预判全程行驶路径、拆分每一步动作,传统分步式VLN完全无法落地车载场景。
基于以上现实痛点,研究团队开创性提出DriveVLN:车辆不加载任何预存地图,仅通过车载摄像头视觉画面+用户简短目的地描述,自主识别路标、地面标线、建筑物等环境线索完成全流程导航。
?四大核心创新贡献
- 创新任务定义:首次将视觉语言导航(VLN)从室内机器人迁移至自动驾驶领域,提出全新Mapless-DriveVLN任务,定义「目的地短句+车载视觉=自主导航」的新范式,填补无地图环境下语言引导自动驾驶的研究空白。
- 搭建行业首个专用基准:基于真实道路扫描数据,在CARLA仿真平台复刻200个高度还原现实的数字孪生场景,场景重点覆盖无图地下停车场、露天园区等难点环境,配套完整数据集与统一评价指标,为后续该方向研究提供标准化测试底座。
- 独创双分支基线模型:拆分「轨迹规划模块+多模态导航选择器」,规划器批量生成多条安全可行路线,微调后的VL大模型结合图文从候选路线中择优决策,打通感知-语言-车辆控制全链路。
- 两段式混合训练方案:先用真实路采数据做监督微调,再在海量仿真场景中开展强化学习优化策略;在仿真环境+真实车场实测双重验证,模型泊车导航性能优于市面多款头部商用、开源多模态大模型。
? DriveVLN专属导航基准

团队自研Topo2Sim自动化数据生成管线,从数学任务定义、场景构建、数据增强、指标设计全流程搭建标准化评测基准,兼顾自动驾驶安全属性与VLN导航属性。
1. 任务数学建模:POMDP部分可观测马尔可夫过程
把车辆无地图语言导航转化为标准POMDP数学问题:
- 车辆状态:,代表车辆实时位姿,为车载传感器采集信息,是抵达标记(1代表到达目的地,导航终止);
- 候选轨迹集合:,即轨迹规划网络,输出K条不依赖目的地、仅满足可行驶条件的备选路线。
2. Topo2Sim三阶段数据集生产流水线
- 实景场景建模:将实车采集的WGS84地理坐标统一转换为仿真器坐标系,依托Frenet公式精准生成车道左右边界:=车道中心线函数,=车道实时宽度,=车道横向法向量,再通过路口端点匹配,搭建完整路网拓扑图。
- 场景&文本双增强:借助GPT-4对同一个目的地生成多版同义指令(如「去充电/把车子停到充电桩」);随机在场景内添加障碍物、社会车辆、交通标识,单拓扑生成多套差异化场景,扩充数据多样性。
- 自动化标注采集:仿真车辆搭载8路RGB相机+激光雷达,以2Hz频率采集全场景数据,依托路网最优路径自动标注真值导航轨迹,最终数据集累计超35万帧有效画面。
3. 复合式评测指标体系
基准独创自动驾驶安全指标+VLN导航精度指标双维度评价规则,既考核车辆会不会剐蹭、路线是否平顺,又衡量能否精准抵达目标点位。
? DriveVLN模型架构

整套模型由轨迹规划模块、多模态导航选择器两大组件构成,搭配「监督微调+强化学习调优」分阶段训练,分工明确、落地友好。
1. 两大核心模块分工
规划模块:基于DiffusionDrive扩散模型批量生成可行轨迹
输入车载RGB图像+激光雷达点云数据,采用锚定高斯分布采样+去噪逻辑,一次性生成多条符合交规、物理可行的候选轨迹,筛选Top-K条作为备选路径池;每条轨迹预设未来4秒行驶路线,包含8个路径关键点。
重点:该模块生成轨迹不参考目的地信息,只保证路线能正常开,选路决策全权交给下游大模型。
导航选择器:基于Qwen2.5-VL-3B微调的多模态大模型
将每条候选轨迹用不同颜色标注并叠加在前视摄像头原图上,把「带彩色候选路径的图片+目的地文字指令」输入微调后的VLM; 模型固定输出格式:是否抵达目的地;最优路径对应颜色,同时缓存历史图像与过往决策,依靠时序记忆辅助十字路口、岔路口的路线选择。
2. 两阶段训练策略
阶段一:监督微调(SFT)
- 规划器:利用仿真真值轨迹聚类得到轨迹锚点,学习通用的道路可行路线生成规律;
- 选择器:使用单帧图文数据做指令微调,学习看图识别终点、筛选最优路径的问答范式。
阶段二:强化学习优化(GRPO算法)
设计局部安全奖励+全局路径奖励复合回报函数,采用GRPO分组策略优化大模型选择逻辑:
:选中轨迹和真实最优轨迹的重合匹配度,数值越高路线越平顺;
=碰撞标识,发生碰撞则、安全奖励直接归零,倒逼模型规避剐蹭。
=路口分支选择正确率、=行驶道路与最优路线重合占比、=成功抵达目的地额外奖励。
总收益融合:,搭配KL散度约束防止模型训练发散,最终依靠GRPO优势函数更新大模型参数。
?全方位实测实验
实验分为仿真基准测评、真实车场落地测评、消融对照实验三大部分,硬件环境:8张NVIDIA A800显卡完成全量训练。
1. 核心综合指标
采用自研综合驾驶分数(值域0~1,分数越高性能越强):
2. 横向对标主流大模型(仿真数据集测试)

?亮点:DriveVLN综合得分断层领先,碰撞率与轨迹误差全模型最优;受无地图任务本身难度限制,全方案到达成功率不足50%,仍是后续优化方向。
3. 真实停车场实地测试(车位/充电桩/出入口三大场景)

在真实园区实测目的地识别与路径选择,车位到达识别准确率高达98.61% ,反观Qwen2.5-VL-72B车位识别准确率仅1.34%;整体目的地检出准确率91.40%,大幅超越GPT-5(81.89%)、Seed-1.6(56.15%),完美解决商用自动泊车无图落地难题。
4. 消融实验:验证双阶段训练必要性

- 仅SFT监督训练:综合得分仅0.49,到达成功率0.21,单帧选路尚可,长距离跨路口极易迷路;
- SFT+RL双阶段训练:分数暴涨至0.67,证明强化学习能帮助模型利用历史全局信息优化远距离导航;
- 替换专家真值轨迹做规划输入:性能小幅提升,证明轨迹生成质量直接决定导航上限。
?研究总结&行业展望
✅落地价值总结
- 降本赋能自动驾驶量产:摆脱高精地图依赖,省去海量地图测绘、定期更新成本,尤其适配地下车库、老旧园区等非标场景的自动泊车落地,是低成本普及L2+/L4自动驾驶的关键路线。
- 开辟全新研究赛道:DriveVLN正式确立无地图语言导航研究范式,配套200场景CARLA基准成为行业统一测试集,为后续学术界、车企研发提供标准化参考。
- 方案工程落地友好:双模块架构+两段式训练落地门槛低,依托成熟扩散规划+开源多模态大模型即可快速复现,中小自动驾驶厂商可低成本落地迭代。
?未来优化方向
- 扩充海量国内真实道路采集数据,优化雨雪、夜间暗光等极端环境鲁棒性;
- 接入更大参数规模多模态基座,攻克跨街区长距离无地图语言导航难题;
- 拓展高速、城区主干道场景,从园区泊车走向全场景全域无图自动驾驶。