您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

本文作者: 陈淑瑜   2026-06-03 18:45 专题:CVPR 计算机视觉与模式识别会议
导语:DriveVLN全新任务在CARLA首创规划+大模型选择双分支架构,经过监督+强化混合训练,车库泊车实测表现碾压GPT-5、Qwen等主流多模态大模型。
  • 来源:公众号“视觉语言导航”

  • 原文链接:https://mp.weixin.qq.com/s/ectOuJaJbvHWP9vhpP5PcQ?scene=1&click_id=33

  • 作者:Dongqian Guo, Haoran Wei, Wencheng Han, Runzhou Tao, Zhongying Qiu, Jianfei Yang, Jianbing Shen
  • 单位澳门大学智慧城市物联网国家重点实验室,千里科技Afari
  • 论文标题:DriveVLN: Towards Mapless Vision-and-Language Navigation in Autonomous Driving
  • 论文链接:https://openaccess.thecvf.com/content/CVPR2026/papers/Guo_DriveVLN_Towards_Mapless_Vision-and-Language_Navigation_in_Autonomous_Driving_CVPR_2026_paper.pdf

?研究背景:两大行业痛点,催生无地图导航新方案

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

当下自动驾驶商业化落地进入瓶颈期,核心桎梏集中在高精地图依赖传统VLN无法适配行车场景两大难题:

  1. 传统自动驾驶:离开高精地图寸步难行: 市面主流自动驾驶方案全部依赖提前测绘、制作的高精地图,依靠地图预先存储车道、车位、地标信息规划行车路线。但地下车库、临时园区、老旧小路、乡村路段几乎不会投入成本测绘高精地图,车辆驶入后直接丢失导航依据,没法完成点对点自主行驶,尤其自动泊车场景落地困难。同时高精地图测绘、运维成本极高,大幅抬高车企量产成本。
  2. 传统室内VLN:指令模式不符合人类开车习惯: 经典视觉语言导航(VLN)诞生于室内扫地机器人、机械臂场景,需要使用者提供分步精细化指令,例如「直行穿过大厅→右转驶入第二个房间」。但现实开车中,人类只会下达精简目的地指令,像「开到园区出口、去充电桩停车」,没人能提前预判全程行驶路径、拆分每一步动作,传统分步式VLN完全无法落地车载场景。

基于以上现实痛点,研究团队开创性提出DriveVLN:车辆不加载任何预存地图,仅通过车载摄像头视觉画面+用户简短目的地描述,自主识别路标、地面标线、建筑物等环境线索完成全流程导航。

?四大核心创新贡献

  1. 创新任务定义:首次将视觉语言导航(VLN)从室内机器人迁移至自动驾驶领域,提出全新Mapless-DriveVLN任务,定义「目的地短句+车载视觉=自主导航」的新范式,填补无地图环境下语言引导自动驾驶的研究空白。
  2. 搭建行业首个专用基准:基于真实道路扫描数据,在CARLA仿真平台复刻200个高度还原现实的数字孪生场景,场景重点覆盖无图地下停车场、露天园区等难点环境,配套完整数据集与统一评价指标,为后续该方向研究提供标准化测试底座。
  3. 独创双分支基线模型:拆分「轨迹规划模块+多模态导航选择器」,规划器批量生成多条安全可行路线,微调后的VL大模型结合图文从候选路线中择优决策,打通感知-语言-车辆控制全链路。
  4. 两段式混合训练方案:先用真实路采数据做监督微调,再在海量仿真场景中开展强化学习优化策略;在仿真环境+真实车场实测双重验证,模型泊车导航性能优于市面多款头部商用、开源多模态大模型。

? DriveVLN专属导航基准

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

团队自研Topo2Sim自动化数据生成管线,从数学任务定义、场景构建、数据增强、指标设计全流程搭建标准化评测基准,兼顾自动驾驶安全属性与VLN导航属性。

1. 任务数学建模:POMDP部分可观测马尔可夫过程

把车辆无地图语言导航转化为标准POMDP数学问题:

  • 车辆状态:代表车辆实时位姿,为车载传感器采集信息,是抵达标记(1代表到达目的地,导航终止);
  • 环境观测:为车载相机实时RGB画面;
  • 候选轨迹集合:即轨迹规划网络,输出K条不依赖目的地、仅满足可行驶条件的备选路线。

2. Topo2Sim三阶段数据集生产流水线

  1. 实景场景建模:将实车采集的WGS84地理坐标统一转换为仿真器坐标系,依托Frenet公式精准生成车道左右边界:
    =车道中心线函数,=车道实时宽度,=车道横向法向量,再通过路口端点匹配,搭建完整路网拓扑图。
  2. 场景&文本双增强:借助GPT-4对同一个目的地生成多版同义指令(如「去充电/把车子停到充电桩」);随机在场景内添加障碍物、社会车辆、交通标识,单拓扑生成多套差异化场景,扩充数据多样性。
  3. 自动化标注采集:仿真车辆搭载8路RGB相机+激光雷达,以2Hz频率采集全场景数据,依托路网最优路径自动标注真值导航轨迹,最终数据集累计超35万帧有效画面。

3. 复合式评测指标体系

基准独创自动驾驶安全指标+VLN导航精度指标双维度评价规则,既考核车辆会不会剐蹭、路线是否平顺,又衡量能否精准抵达目标点位。

? DriveVLN模型架构

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

整套模型由轨迹规划模块、多模态导航选择器两大组件构成,搭配「监督微调+强化学习调优」分阶段训练,分工明确、落地友好。

1. 两大核心模块分工

规划模块:基于DiffusionDrive扩散模型批量生成可行轨迹

输入车载RGB图像+激光雷达点云数据,采用锚定高斯分布采样+去噪逻辑,一次性生成多条符合交规、物理可行的候选轨迹,筛选Top-K条作为备选路径池;每条轨迹预设未来4秒行驶路线,包含8个路径关键点。

重点:该模块生成轨迹不参考目的地信息,只保证路线能正常开,选路决策全权交给下游大模型。

导航选择器:基于Qwen2.5-VL-3B微调的多模态大模型

将每条候选轨迹用不同颜色标注并叠加在前视摄像头原图上,把「带彩色候选路径的图片+目的地文字指令」输入微调后的VLM; 模型固定输出格式:是否抵达目的地;最优路径对应颜色,同时缓存历史图像与过往决策,依靠时序记忆辅助十字路口、岔路口的路线选择。

2. 两阶段训练策略

阶段一:监督微调(SFT)

  • 规划器:利用仿真真值轨迹聚类得到轨迹锚点,学习通用的道路可行路线生成规律;
  • 选择器:使用单帧图文数据做指令微调,学习看图识别终点、筛选最优路径的问答范式。

阶段二:强化学习优化(GRPO算法)

设计局部安全奖励+全局路径奖励复合回报函数,采用GRPO分组策略优化大模型选择逻辑:

  1. 局部奖励(单步行驶安全+轨迹贴合度)

:选中轨迹和真实最优轨迹的重合匹配度,数值越高路线越平顺;

=碰撞标识,发生碰撞则、安全奖励直接归零,倒逼模型规避剐蹭。

  1. 全局奖励(全路程导航精准度+到达奖励)

=路口分支选择正确率、=行驶道路与最优路线重合占比、=成功抵达目的地额外奖励。

总收益融合:,搭配KL散度约束防止模型训练发散,最终依靠GRPO优势函数更新大模型参数。

?全方位实测实验

实验分为仿真基准测评、真实车场落地测评、消融对照实验三大部分,硬件环境:8张NVIDIA A800显卡完成全量训练。

1. 核心综合指标

采用自研综合驾驶分数(值域0~1,分数越高性能越强):

  • :行车惩罚系数,碰撞惩罚、轨迹偏离惩罚;
  • :路线完成度,=目的地到达成功率、=导航误差。

2. 横向对标主流大模型(仿真数据集测试)

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

?亮点:DriveVLN综合得分断层领先,碰撞率与轨迹误差全模型最优;受无地图任务本身难度限制,全方案到达成功率不足50%,仍是后续优化方向。

3. 真实停车场实地测试(车位/充电桩/出入口三大场景)

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

在真实园区实测目的地识别与路径选择,车位到达识别准确率高达98.61% ,反观Qwen2.5-VL-72B车位识别准确率仅1.34%;整体目的地检出准确率91.40%,大幅超越GPT-5(81.89%)、Seed-1.6(56.15%),完美解决商用自动泊车无图落地难题。

4. 消融实验:验证双阶段训练必要性

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航
  • 仅SFT监督训练:综合得分仅0.49,到达成功率0.21,单帧选路尚可,长距离跨路口极易迷路;
  • SFT+RL双阶段训练:分数暴涨至0.67,证明强化学习能帮助模型利用历史全局信息优化远距离导航;
  • 替换专家真值轨迹做规划输入:性能小幅提升,证明轨迹生成质量直接决定导航上限。

?研究总结&行业展望

✅落地价值总结

  1. 降本赋能自动驾驶量产:摆脱高精地图依赖,省去海量地图测绘、定期更新成本,尤其适配地下车库、老旧园区等非标场景的自动泊车落地,是低成本普及L2+/L4自动驾驶的关键路线。
  2. 开辟全新研究赛道:DriveVLN正式确立无地图语言导航研究范式,配套200场景CARLA基准成为行业统一测试集,为后续学术界、车企研发提供标准化参考。
  3. 方案工程落地友好:双模块架构+两段式训练落地门槛低,依托成熟扩散规划+开源多模态大模型即可快速复现,中小自动驾驶厂商可低成本落地迭代。

?未来优化方向

  1. 扩充海量国内真实道路采集数据,优化雨雪、夜间暗光等极端环境鲁棒性;
  2. 接入更大参数规模多模态基座,攻克跨街区长距离无地图语言导航难题;
  3. 拓展高速、城区主干道场景,从园区泊车走向全场景全域无图自动驾驶。

CVPR-2026|当自动驾驶遇到视觉语言导航!DriveVLN:甩掉昂贵高精地图、仅凭一句指令实现裸车自主导航

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说