0
| 本文作者: 陈淑瑜 | 2026-04-28 16:29 | 专题:CVPR 计算机视觉与模式识别会议 |
【封面图片来源:网站名中国科学院自动化研究所,所有者:MeanFuser】
端到端自动驾驶近年来取得了飞速进展,生成模型在多模态轨迹规划中展现出巨大潜力。现有基于锚点引导的生成方法能有效刻画驾驶行为的不确定性并提升整体性能,但存在一个内在矛盾:这类方法依赖离散锚点词汇表,并要求其在测试阶段充分覆盖轨迹分布以保证鲁棒性,从而在词汇规模与模型性能之间引入不可调和的权衡——词汇太少则覆盖不够,词汇太多则计算成本爆炸。
另一方面,传统流匹配方法在高质量轨迹生成上需要多步ODE求解,推理效率受限,难以满足自动驾驶系统对实时性的严苛要求。如何在不引入离散词汇依赖的同时,以单步生成实现高质量多模态轨迹,成为亟待突破的核心问题。
MeanFuser 正是针对这一核心矛盾提出的解决方案,通过引入 MeanFlow Identity 和高斯混合噪声引导,实现了高效率与高质量的统一。

MeanFuser 的方法创新体现在三个层面的有机结合:
将离散锚点词汇表替换为高斯混合分布。不同驾驶模态(如直行、左转、右转、减速等)对应不同的高斯分量,从而实现对轨迹空间的连续建模,从根本上消除了对离散词汇表的依赖,支持无限细粒度的多模态轨迹采样。
将 MeanFlow Identity(建模 GMN 与轨迹分布之间的平均速度场)引入端到端规划框架,用平均速度场替代传统流匹配中的瞬时速度场,有效避免多步ODE求解带来的数值误差,实现高质量单步轨迹生成,大幅加速推理。
ARM 将采样到的多模态候选轨迹编码后,通过交叉注意力机制与上下文特征融合,在多模态候选中隐式选择或重构最优轨迹作为最终规划输出。这一设计既保留了多模态探索的丰富性,又通过注意力机制实现了上下文感知的自适应融合。
通过高斯混合噪声连续建模驾驶行为分布,MeanFuser 从根源上消除了词汇规模 vs 性能的内在矛盾。轨迹空间的连续表征使模型能自然捕获真实驾驶行为的连续分布,显著提升在分布外场景和罕见驾驶行为上的鲁棒性。
MeanFlow 单步生成策略使 MeanFuser 在 NAVSIM 闭环基准上取得优异性能的同时,具备卓越的推理效率,无需额外监督信号。这对于自动驾驶系统在车载算力有限条件下的实时部署至关重要。
在注重真实驾驶闭环反馈的 NAVSIM 基准上,MeanFuser 展现出优于现有方法的综合性能,验证了从训练阶段消除词汇依赖对闭环测试泛化性的正向贡献,为端到端自动驾驶的工程落地提供了高效可靠的新范式。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
原文链接:https://arxiv.org/abs/2026.meanfuser
解读来源:https://ia.cas.cn/xwzx/ttxw/202603/t20260317_8160775.html
雷峰网版权文章,未经授权禁止转载。详情见转载须知。