CVPR-2026｜当自动驾驶遇到视觉语言导航！DriveVLN：甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

本文作者：陈淑瑜

2026-06-03 18:45

专题：CVPR 计算机视觉与模式识别会议

导语：DriveVLN全新任务在CARLA首创规划+大模型选择双分支架构，经过监督+强化混合训练，车库泊车实测表现碾压GPT-5、Qwen等主流多模态大模型。

来源：公众号“视觉语言导航”
原文链接：https://mp.weixin.qq.com/s/ectOuJaJbvHWP9vhpP5PcQ?scene=1&click_id=33
作者：Dongqian Guo, Haoran Wei, Wencheng Han, Runzhou Tao, Zhongying Qiu, Jianfei Yang, Jianbing Shen
单位：澳门大学智慧城市物联网国家重点实验室，千里科技Afari
论文标题：DriveVLN: Towards Mapless Vision-and-Language Navigation in Autonomous Driving
论文链接：https://openaccess.thecvf.com/content/CVPR2026/papers/Guo_DriveVLN_Towards_Mapless_Vision-and-Language_Navigation_in_Autonomous_Driving_CVPR_2026_paper.pdf

?研究背景：两大行业痛点，催生无地图导航新方案

CVPR-2026｜当自动驾驶遇到视觉语言导航！DriveVLN：甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

当下自动驾驶商业化落地进入瓶颈期，核心桎梏集中在高精地图依赖与传统VLN无法适配行车场景两大难题：

传统自动驾驶：离开高精地图寸步难行：市面主流自动驾驶方案全部依赖提前测绘、制作的高精地图，依靠地图预先存储车道、车位、地标信息规划行车路线。但地下车库、临时园区、老旧小路、乡村路段几乎不会投入成本测绘高精地图，车辆驶入后直接丢失导航依据，没法完成点对点自主行驶，尤其自动泊车场景落地困难。同时高精地图测绘、运维成本极高，大幅抬高车企量产成本。
传统室内VLN：指令模式不符合人类开车习惯：经典视觉语言导航（VLN）诞生于室内扫地机器人、机械臂场景，需要使用者提供分步精细化指令，例如「直行穿过大厅→右转驶入第二个房间」。但现实开车中，人类只会下达精简目的地指令，像「开到园区出口、去充电桩停车」，没人能提前预判全程行驶路径、拆分每一步动作，传统分步式VLN完全无法落地车载场景。

基于以上现实痛点，研究团队开创性提出DriveVLN：车辆不加载任何预存地图，仅通过车载摄像头视觉画面+用户简短目的地描述，自主识别路标、地面标线、建筑物等环境线索完成全流程导航。

?四大核心创新贡献

创新任务定义：首次将视觉语言导航(VLN)从室内机器人迁移至自动驾驶领域，提出全新Mapless-DriveVLN任务，定义「目的地短句+车载视觉=自主导航」的新范式，填补无地图环境下语言引导自动驾驶的研究空白。
搭建行业首个专用基准：基于真实道路扫描数据，在CARLA仿真平台复刻200个高度还原现实的数字孪生场景，场景重点覆盖无图地下停车场、露天园区等难点环境，配套完整数据集与统一评价指标，为后续该方向研究提供标准化测试底座。
独创双分支基线模型：拆分「轨迹规划模块+多模态导航选择器」，规划器批量生成多条安全可行路线，微调后的VL大模型结合图文从候选路线中择优决策，打通感知-语言-车辆控制全链路。
两段式混合训练方案：先用真实路采数据做监督微调，再在海量仿真场景中开展强化学习优化策略；在仿真环境+真实车场实测双重验证，模型泊车导航性能优于市面多款头部商用、开源多模态大模型。

? DriveVLN专属导航基准

团队自研Topo2Sim自动化数据生成管线，从数学任务定义、场景构建、数据增强、指标设计全流程搭建标准化评测基准，兼顾自动驾驶安全属性与VLN导航属性。

1. 任务数学建模：POMDP部分可观测马尔可夫过程

把车辆无地图语言导航转化为标准POMDP数学问题：

车辆状态：，代表车辆实时位姿，为车载传感器采集信息，是抵达标记（1代表到达目的地，导航终止）；
环境观测：为车载相机实时RGB画面；
候选轨迹集合：，即轨迹规划网络，输出K条不依赖目的地、仅满足可行驶条件的备选路线。

2. Topo2Sim三阶段数据集生产流水线

实景场景建模：将实车采集的WGS84地理坐标统一转换为仿真器坐标系，依托Frenet公式精准生成车道左右边界：
=车道中心线函数，=车道实时宽度，=车道横向法向量，再通过路口端点匹配，搭建完整路网拓扑图。
场景&文本双增强：借助GPT-4对同一个目的地生成多版同义指令（如「去充电/把车子停到充电桩」）；随机在场景内添加障碍物、社会车辆、交通标识，单拓扑生成多套差异化场景，扩充数据多样性。
自动化标注采集：仿真车辆搭载8路RGB相机+激光雷达，以2Hz频率采集全场景数据，依托路网最优路径自动标注真值导航轨迹，最终数据集累计超35万帧有效画面。

3. 复合式评测指标体系

基准独创自动驾驶安全指标+VLN导航精度指标双维度评价规则，既考核车辆会不会剐蹭、路线是否平顺，又衡量能否精准抵达目标点位。

? DriveVLN模型架构

整套模型由轨迹规划模块、多模态导航选择器两大组件构成，搭配「监督微调+强化学习调优」分阶段训练，分工明确、落地友好。

1. 两大核心模块分工

规划模块：基于DiffusionDrive扩散模型批量生成可行轨迹

输入车载RGB图像+激光雷达点云数据，采用锚定高斯分布采样+去噪逻辑，一次性生成多条符合交规、物理可行的候选轨迹，筛选Top-K条作为备选路径池；每条轨迹预设未来4秒行驶路线，包含8个路径关键点。

重点：该模块生成轨迹不参考目的地信息，只保证路线能正常开，选路决策全权交给下游大模型。

导航选择器：基于Qwen2.5-VL-3B微调的多模态大模型

将每条候选轨迹用不同颜色标注并叠加在前视摄像头原图上，把「带彩色候选路径的图片+目的地文字指令」输入微调后的VLM；模型固定输出格式：是否抵达目的地；最优路径对应颜色，同时缓存历史图像与过往决策，依靠时序记忆辅助十字路口、岔路口的路线选择。

2. 两阶段训练策略

阶段一：监督微调（SFT）

规划器：利用仿真真值轨迹聚类得到轨迹锚点，学习通用的道路可行路线生成规律；
选择器：使用单帧图文数据做指令微调，学习看图识别终点、筛选最优路径的问答范式。

阶段二：强化学习优化（GRPO算法）

设计局部安全奖励+全局路径奖励复合回报函数，采用GRPO分组策略优化大模型选择逻辑：

局部奖励（单步行驶安全+轨迹贴合度）

：选中轨迹和真实最优轨迹的重合匹配度，数值越高路线越平顺；

=碰撞标识，发生碰撞则、安全奖励直接归零，倒逼模型规避剐蹭。

全局奖励（全路程导航精准度+到达奖励）

=路口分支选择正确率、=行驶道路与最优路线重合占比、=成功抵达目的地额外奖励。

总收益融合：，搭配KL散度约束防止模型训练发散，最终依靠GRPO优势函数更新大模型参数。

?全方位实测实验

实验分为仿真基准测评、真实车场落地测评、消融对照实验三大部分，硬件环境：8张NVIDIA A800显卡完成全量训练。

1. 核心综合指标

采用自研综合驾驶分数（值域0~1，分数越高性能越强）：

：行车惩罚系数，碰撞惩罚、轨迹偏离惩罚；
：路线完成度，=目的地到达成功率、=导航误差。

2. 横向对标主流大模型（仿真数据集测试）

?亮点：DriveVLN综合得分断层领先，碰撞率与轨迹误差全模型最优；受无地图任务本身难度限制，全方案到达成功率不足50%，仍是后续优化方向。

3. 真实停车场实地测试（车位/充电桩/出入口三大场景）

在真实园区实测目的地识别与路径选择，车位到达识别准确率高达98.61% ，反观Qwen2.5-VL-72B车位识别准确率仅1.34%；整体目的地检出准确率91.40%，大幅超越GPT-5（81.89%）、Seed-1.6（56.15%），完美解决商用自动泊车无图落地难题。

4. 消融实验：验证双阶段训练必要性

仅SFT监督训练：综合得分仅0.49，到达成功率0.21，单帧选路尚可，长距离跨路口极易迷路；
SFT+RL双阶段训练：分数暴涨至0.67，证明强化学习能帮助模型利用历史全局信息优化远距离导航；
替换专家真值轨迹做规划输入：性能小幅提升，证明轨迹生成质量直接决定导航上限。

?研究总结&行业展望

✅落地价值总结

降本赋能自动驾驶量产：摆脱高精地图依赖，省去海量地图测绘、定期更新成本，尤其适配地下车库、老旧园区等非标场景的自动泊车落地，是低成本普及L2+/L4自动驾驶的关键路线。
开辟全新研究赛道：DriveVLN正式确立无地图语言导航研究范式，配套200场景CARLA基准成为行业统一测试集，为后续学术界、车企研发提供标准化参考。
方案工程落地友好：双模块架构+两段式训练落地门槛低，依托成熟扩散规划+开源多模态大模型即可快速复现，中小自动驾驶厂商可低成本落地迭代。

?未来优化方向

扩充海量国内真实道路采集数据，优化雨雪、夜间暗光等极端环境鲁棒性；
接入更大参数规模多模态基座，攻克跨街区长距离无地图语言导航难题；
拓展高速、城区主干道场景，从园区泊车走向全场景全域无图自动驾驶。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章