0
| 本文作者: 陈淑瑜 | 2026-05-28 15:12 |
来源:3D视觉工坊
原文链接:https://mp.weixin.qq.com/s/OeuvkEsZfxOF4SEZcD4wPA
标题:DLWM: Dual Latent World Models enable Holistic Gaussian-centric Pre-training in Autonomous Driving
作者:Yiyao Zhu, Ying Xue, Haiming Zhang, Guangfeng Jiang, Wending Zhou, Xu Yan, Jiantao Gao, Yingjie Cai, Bingbing Liu, Zhen Li, Shaojie Shen
机构:HKUST、CUHK-SZ、USTC、Huawei Foundation Model Department
原文链接:https://arxiv.org/abs/2604.00969
基于视觉的自动驾驶技术因其低成本和出色的性能而受到了广泛关注。与那些采用密集采样或稀疏采样方法的模型相比,以高斯分布为核心的方法能够以一种既全面又高效的方式来描述场景:通过3D语义高斯函数来表征场景中的各种特征。在本文中,我们提出了一种名为DLWM的新算法。该算法基于“双重潜在世界模型”原理设计,旨在通过两阶段处理来实现以高斯分布为核心的预训练过程。在第一阶段,DLWM通过自监督学习的方式,利用多视图语义信息和深度图像来预测3D高斯分布。在第二阶段,系统会分别训练两个潜在世界模型:一个用于时间相关特征的提取,其输出结果可用于后续的占用检测与预测任务;另一个则用于运动规划,其输出结果可指导车辆的行驶路径。通过在SurroundOcc和nuScenes测试基准上的大量实验表明,DLWM在3D占用检测、4D占用预测以及运动规划等方面都取得了显著的性能提升。
我们用于预训练和下游任务性能提升的DIWM示意图。

最近,基于视觉的自动驾驶系统已发展成为一种主流范式,为多传感器融合方法提供了经济高效且可扩展的替代方案。该系统利用先进的深度学习,并与多任务头兼容,能够保持准确的场景理解和安全的运动规划。实现稳健自主驾驶的一个基础挑战是开发一种场景表示,该表示同时具有表达力、高效性以及时间一致性,以支持感知、预测和规划任务。
早期方法主要依赖稠密或粗粒度的表示:基于体素的方法使用3D体素网格来表示周围环境,以计算开销为代价提供详细的几何信息。基于BEV 的方法将多视角特征压缩到2D平面;后续的稀疏查询方法用少量稀疏查询(例如实例框、地图元素)替代了网格。尽管这些方法相对高效,但它们要么牺牲了垂直细节和稠密几何信息,要么只给决策模块留下了粗略的场景知识。为了克服这些局限性,研究转向了以高斯为中心的表示。一组3D语义高斯提供了全面而稀疏的表示,在细节和效率之间实现了最佳平衡。
尽管以高斯为中心的表示已展现出巨大潜力,但其对大量人工标注的依赖阻碍了可扩展部署。最近利用无标签数据的预训练范式提供了一种有前景的解决方案。例如,掩码自编码器 (MAE) 等自监督方法采用对比学习进行预训练,但由于依赖粗糙的监督信号,未能显式学习3D几何结构。最近,为了学习完整的几何表示,基于渲染的方法如UniPAD和ViDAR利用激光雷达深度来监督体素渲染。相比之下,最近的GaussianFlowOcc和SQS表明,仅通过可微的RGB/深度渲染,就可以从无标签视频中学习3D高斯本身。然而,针对以高斯为中心的模型全生命周期的全面自监督预训练策略仍有待探索。
基于对鲁棒特征学习的必要性,时间预测成为高层场景演化的下一个挑战。潜在世界模型已成为无监督时间建模的关键方法。它绕过了显式的图像或占据生成,直接在紧凑的潜在空间中预测未来的动态。目前,潜在世界模型已用于运动规划,但很少被探索用于感知和预测等其他关键任务,更不用说与以高斯为中心的模型集成了。
然而,这种集成在潜在表示的选择上提出了一个基本的技术挑战。由于当前帧和未来帧的高斯查询是独立初始化的,它们缺乏一对一的对应关系。因此,高斯查询的置换等价性使得无法在两帧之间直接监督高斯查询特征。幸运的是,3D高斯泼溅 (3DGS) 具有任意视角渲染能力。源自稀疏高斯查询的BEV栅格化作为一种稠密网格表示,通过垂直堆叠保留了高度信息,并允许清晰的帧间区域对应。因此,我们选择BEV特征作为最适合时间监督的潜在表示。
为了弥补这一差距并充分利用以高斯为中心的表示和潜在世界模型的优势,我们提出了DLWM,一种新颖的整体预训练范式,具有双潜在世界模型。DLWM采用两阶段方法来统一时空高斯表示学习,在不进行预训练的情况下改善了所有下游任务(在占据感知上+1.02 mIoU,在占据预测上+2.68 mIoU,在运动规划上-16% L2误差)。具体来说,在第一阶段,我们重建语义图和深度图以学习高斯上下文。利用预训练的权重,在第二阶段,分别使用双潜在世界模型进行预训练。第一个模型由高斯流引导,专门设计用于下游的3D占据感知和4D占据预测任务。另一个基于预测的自车轨迹的潜在世界模型用于改进运动规划。
我们列出本文的贡献如下:
提出了DLWM,一个用于整体以高斯为中心的预训练的自监督范式,包括统一的第一阶段用于学习以高斯为中心的几何和语义表示,然后在第二阶段分别训练双潜在世界模型。
引入了一个由高斯流和自车运动对齐引导的潜在世界模型,用于学习时空高斯特征表示,专门设计用于下游的占据感知和预测任务。
设计了另一个由当前高斯潜变量和预测的自车轨迹引导的潜在世界模型,共同改进时间以高斯为中心的表示和自车轨迹规划。
DLWM显著提升了以高斯为中心的占据感知、预测和规划任务的性能,在SurroundOcc和nuScenes基准测试上取得了最先进的结果。
DLWM的整体流程。阶段1专注于通过深度图和语义图上的自监督重建,从多视角视频中学习鲁棒的3D高斯场景表示。阶段2引入了双潜在世界模型。a. 高斯流引导模型显式预测3D高斯流,将当前高斯状态传播到未来帧以进行潜变量预测。b. 自车规划引导模型根据预测的自车轨迹来条件化未来场景预测。所有预测的潜变量都通过冻结的高斯感知模块,利用来自下一帧多视角图像的感知特征进行监督。

以流式方式实现4D占用预测。我们通过自车运动对齐将当前的3D高斯分布转换到下一帧,并用随机高斯分布填充新区域。

我们在三个具有挑战性的下游任务上评估了DLWM的有效性:3D占据感知、4D占据预测和运动规划。
3D占据感知。表1比较了在nuScenes验证集上使用SurroundOcc标签的3D语义占据结果。没有预训练时,我们的基线模型达到20.83 mIoU和31.77 IoU。经过两阶段预训练后,模型( ours )提升到21.85 mIoU和34.61 IoU,达到了SOTA水平,相比无预训练模型分别提高了1.02 mIoU和2.84 IoU。结果证明了我们预训练策略的优势。
4D占据预测。表2总结了在nuScenes验证集上的4D占据预测结果。我们评估了两个变体:基线(无预训练)和DLWM(两阶段预训练)。基准包括Copy&Paste、OccWorld-O/T/S/D [52]。基线已经超越了所有OccWorld变体,在1-3秒平均达到15.09 mIoU和25.65 IoU。预训练后,我们的方法以平均17.77 mIoU和30.60 IoU建立了新的最先进水平,超越了使用3D占据输入的OccWorld-O方法。一致的性能提升证实了我们预训练的世界模型在4D占据预测任务上的优越性。
运动规划。我们在nuScenes运动规划任务上评估了DLWM,通过3秒时域上的L2距离和碰撞率来衡量性能(表3)。我们的方法实现了0.46米的平均L2距离,与BEV-Planner并列最佳得分,并超越了像LAW(L2: 0.61米)这样的专用世界模型。与带有多个辅助任务的UniAD相比,我们的方法在具有相当碰撞避免能力的情况下取得了更好的L2得分,证实了所设计的潜在世界模型非常有效。此外,我们的两阶段自监督预训练在L2距离上相比无预训练的基线带来了0.09米的显著提升(从0.55米到0.46米)。


在本工作中,我们提出了DLWM(双潜在世界模型),一种新颖的两阶段自监督预训练范式,专为基于视觉的自动驾驶中以高斯为中心的表示而设计。DLWM通过建立两阶段流程来改进稀疏查询学习和时间一致性:阶段1通过多样化的渲染目标专注于几何和语义特征学习。阶段2引入了我们的双潜在世界模型,包括高斯流引导和自车规划引导的潜变量预测。DLWM在占据感知、预测和运动规划任务上取得了最先进的结果,证实了我们整体以高斯为中心的预训练框架的实质性、可扩展贡献。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
雷峰网版权文章,未经授权禁止转载。详情见转载须知。