您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了

本文作者: 陈淑瑜   2026-06-01 14:43
导语: Waymo 提出 Sensor2Sensor ,用 4D Gaussian Splatting 先把自家自动驾驶日志渲染成“行车记录仪视角”,再训练扩散模型把

来源:公众号“Hyman的杂货铺”

原文链接:https://mp.weixin.qq.com/s/LU5ldsQhD0EcIcOy0ynOtw


街上每天都有海量行车记录仪、手机拍摄、 ADAS 车辆视频。里面藏着很多自动驾驶系统最想要的东西:事故前几秒、夜间低能见度、奇怪并线、突发施工、行人横穿、车辆擦碰。这些场景真实发生过,物理过程也可信。

难点在另一个地方:自动驾驶系统不能直接吃这些视频。

一段普通行车记录仪视频通常只有一个前视单目视角,没有车辆顶部多路相机,没有环视覆盖,没有 LiDAR 点云,也没有目标车队对应的传感器标定。对一套依赖多相机和 LiDAR 的 ADS 来说,它像一段“看得见但用不上”的素材。

Sensor2Sensor 把问题改成了传感器转换:输入是野外来源的单目驾驶视频,输出是目标自动驾驶平台格式下的多视角相机画面和 LiDAR 点云。它的核心动作,是把真实视频重新投到目标车的传感器坐标系里,让一段外部单目视频变成内部系统能读取的多传感器日志。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
Sensor2Sensor 的目标:把手机、行车记录仪、互联网驾驶视频等单目来源,转换成目标自动驾驶车辆的多相机与 LiDAR 日志。

为什么这件事值得看


自动驾驶数据一直有两个互相拉扯的目标。

一边是自有车队采集的数据。它质量高,传感器完整,有精确标定,能直接进入训练、验证、仿真流程。但它贵,覆盖有限,尤其是长尾事件很难靠车队自然“等”出来。

另一边是开放世界里的第三方视频。规模极大,内容丰富,而且天然偏向长尾,因为日常平稳驾驶不会被频繁上传,异常事件反而更容易被记录下来。但这类视频缺少结构化传感器信息,很难被自动驾驶系统当作正式验证数据。

论文把这个矛盾概括为 embodiment gap ,也就是“载体差异”。同一个真实世界事件,发生在某个摄像头视角里;而你的 ADS 需要的是另一辆车、另一套相机、另一套 LiDAR 、另一组标定下的传感器观测。这类差异远远超过风格迁移,同时包含视角、几何、模态和时间一致性。

我的理解是, Sensor2Sensor 的价值落在一个非常具体的工程瓶颈上:怎么把外部真实长尾视频变成内部可消费的 AV log 。

训练数据怎么来:先反向造“配对样本”


最大的问题是没有配对数据。

如果要训练一个模型,把“行车记录仪视频”变成“目标自动驾驶日志”,理想训练集应该长这样:同一时刻、同一场景,既有第三方行车记录仪视角,又有目标自动驾驶车的 8 路相机和 LiDAR 。现实中这种配对几乎不存在。

论文的做法很工程:从已有 AV logs 出发,先用 4D Gaussian Splatting 重建动态驾驶场景,再从这个重建场景里渲染出各种“模拟第三方摄像头”。这样就得到一对训练样本:模拟行车记录仪视角作为输入,原始 AV 多传感器日志作为监督输出。

这一步里, 4DGS 更像一个几何老师:它负责把已有多相机和 LiDAR 观测整理成可重渲染的 4D 场景,为后续模型提供时间同步、空间对齐的训练对。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
配对数据生成流程:先从 8 路相机重建 4DGS ,再渲染不同型号和安装位置的第三方摄像头视角。

论文使用约 10 万个 10 秒驾驶片段做 4DGS 重建。每个片段包含 360 度多视角相机数据和 LiDAR 数据, LiDAR 可用于初始化和约束 3D Gaussian 的几何。动态物体会通过规范物体模型做累积,以提升车辆、行人等移动对象的覆盖。

随后,系统采样第三方摄像头的内参和外参。

内参方面,采样焦距、主点、畸变系数,用来模拟低成本广角镜头、鱼眼效果和不同 dashcam 光学配置。
外参方面,采样相对车体的 6 自由度位姿,覆盖不同车型、安装高度、前后位置、偏航、俯仰和滚转误差。
渲染阶段还考虑曝光补偿、 gamma 校正等光照归一化,让合成 dashcam 更接近真实野外视频。

补充材料里提到,轿车场景下摄像头高度会在 1.1 到 1.3 米附近采样,前向平移在 2.0 到 2.5 米区间内变化,焦距还会加入约 5% 的均匀扰动。这些细节让“合成第三方摄像头”具备真实安装和镜头差异,而非简单换一个视角。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
补充材料展示的 4DGS 合成 dashcam :不同摄像头参数会产生不同视角、畸变和安装效果。

模型怎么做:一个输入视角,生成 8 路相机和 LiDAR


Sensor2Sensor 的生成模型基于 Latent Diffusion 。它要同时输出两类东西:目标车辆的多视角相机图像,以及同一时刻的 LiDAR 点云。

论文把相机和 LiDAR 分开编码,再在扩散 U-Net 内部做跨视角、跨传感器融合。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
Sensor2Sensor 架构:相机和 LiDAR 各自有 VAE 与 U-Net 分支,通过跨视角注意力和跨传感器注意力保持一致。

多视角相机生成

相机分支继承了多视角扩散模型的思路。它学习的是所有目标视角的联合分布,而非逐个孤立生成每个相机。为了让 8 路相机之间保持一致,模型把普通 2D attention 换成 3D attention :既在空间维度上看图像内容,也在视角维度上交换信息。

相机位姿通过 raymap 注入。 Raymap 可以理解为每个像素对应的一条 3D 射线,包含射线起点和方向。模型看到的不只是“生成一张图”,还知道这张图对应车辆上哪个相机、朝哪里看、内外参是什么。

第三方 dashcam 输入会作为第 9 个视角加入模型。它的 latent 、 raymap 和二值 mask 会一起拼到视角维度里。这个 mask 告诉模型:这一视角是已知条件,不参与噪声还原;另外 8 个目标视角才是要生成的结果。

这会影响模型理解输入的方式。通道拼接容易把 dashcam 压成普通特征图;视角拼接则明确告诉模型:这是一台真实存在的已知相机,可以通过跨视角注意力与目标相机互动。

LiDAR 生成

LiDAR 点云没有直接作为无序点集生成,而是转成 range-view spin image 。论文使用一个形状为高度、宽度、通道的张量表示 LiDAR ,其中 4 个通道分别是:距离、反射强度、 elongation 和有效性 mask 。

距离会被截断到 150 米并线性归一化到 0 到 1 ,强度和 elongation 也做归一化。这样 LiDAR 可以更自然地进入 2D 生成模型。

LiDAR 分支有独立 VAE 。编码器和解码器都是卷积结构,训练目标包括距离、 elongation 、强度的 L1 重建,有效性 mask 的二元交叉熵,以及法线、 elongation 、强度、有效性上的 LPIPS 感知损失,再加 KL 正则。这里不必纠结每个损失项的公式,核心意思是:模型既要还原数值,也要让点云转换成图像表示后在结构和感知上更接近真实 LiDAR 。

跨传感器注意力

相机和 LiDAR 分支如果完全分开训练,很容易出现图像里有车、点云里没车,或者点云障碍物位置和图像对不上。论文在每个 U-Net block 里加入 cross-sensor attention 。

做法是把相机特征 token 和 LiDAR 特征 token 拉平后拼到同一个序列里,再做 self-attention 。这样图像和 LiDAR 的特征能在去噪过程中互相引用。对自动驾驶来说,这一步比单纯提升视觉效果更有意义,因为下游感知和仿真系统需要跨模态一致的世界,而非两份各自看起来不错的数据。

视频怎么保持稳定: DAgger 用在自回归生成上


单帧能生成还不够。真实 driving log 是一段连续传感器序列。

论文把模型扩展为自回归视频生成:当前时刻的第三方视频帧,加上上一时刻自己生成的相机和 LiDAR ,一起作为条件,生成当前时刻的 8 路相机和 LiDAR 。

问题也随之出现:训练时模型常常看到真实上一帧,推理时却只能看到自己上一帧生成的结果。小错误会沿时间累积,最后变成闪烁、漂移、几何错位。

论文借用了 DAgger 思路来缩小训练和推理差异。训练流程分为四步:

1.先训练单帧条件生成模型。
2.再加入上一帧相机与 LiDAR latent 的条件,做前帧条件微调。
3.用模型自己滚动生成一批带误差的 rollout 数据。
4.再用这些模型生成的历史状态继续微调,让模型学会在自己的错误上下文里恢复。

补充材料给出的实现细节是:训练使用 128 个 TPU , AdamW 优化器,学习率 5e-5 ,全局梯度裁剪为 1.0 , EMA 衰减为 0.999 。三个主要阶段分别训练 8 万、 4 万和 2 万步,模型参数规模约 2.5 亿。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
视频 rollout 对比: DAgger 训练能减少时间展开过程中的闪烁和漂移,前视画面更稳定。

实验设置:论文自己搭了一个新评测


因为“单目第三方视频到完整 AV sensor suite”这个任务此前没有标准数据集,论文自建了两个评测部分。

第一部分是 1000 段配对的 Fixed-Camera-to-AV log ,每段 3 秒。输入相机固定在自动驾驶车前左保险杠附近,目标输出是车顶 8 路环视相机和 LiDAR 。因为这一路输入与目标传感器同步且标定已知,所以能做 PSNR 、 SSIM 、 LPIPS 、 FID 、 FVD 、 Chamfer Distance 等定量比较。

第二部分是 in-the-wild 数据,包括手工采集的真实 dashcam 、互联网上的驾驶视频、手机录制视频和其他 ADAS 来源,用于观察模型面对未知相机、未知天气、未知场景内容时的泛化能力。

基线方面,论文改造了几类方法: VGGT 和 π3 代表前馈 3D 重建路线; X-Drive 代表图像和 LiDAR 联合生成路线; CAT3D 相关变体用于比较输入条件的通道拼接和视角拼接。

结果一:多视角图像生成明显领先


在 Fixed-Camera-to-AV 多视角图像生成任务上, Sensor2Sensor 的 FID 为 6.47 , LPIPS 为 0.316 ,优于 VGGT 、π3 、 X-Drive 和不使用视角拼接的变体。

方法
FID↓
PSNR↑
LPIPS↓
VGGT
250.93
14.73
0.491
π3
246.27
14.93
0.458
X-Drive
8.30
18.61
0.345
无 VC 变体
6.88
18.69
0.346
Sensor2Sensor
6.47
19.06
0.316

视觉上, Sensor2Sensor 生成的多视角画面更清晰,对车辆形状、场景结构、被遮挡区域补全更稳。重建类模型在未观察区域容易出现空洞或几何变形;生成类基线虽然图像更像真实,但多视角结构和对象一致性仍弱一些。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
图像生成对比: Sensor2Sensor 更接近真实目标视角,基线方法更容易出现模糊、形状错误或未观察区域生成失败。

补充材料进一步展示了不同车辆位置和颜色下的图像生成。可以看到,模型并非只把前视输入复制到周围视角,而是在推断车辆周边结构、目标车身形状和遮挡区域。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
补充图像结果:在多车前方场景中, Sensor2Sensor 对车辆形状和颜色的保持更稳定。
CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
更多图像结果:面对倾斜车辆、迎面车辆等输入,模型仍能生成较一致的目标视角。

结果二:视频 FVD 从两千级降到两百级


视频生成任务只比较前视生成视频,因为 VGGT 和 π3 在其他视角会出现大面积空洞。 Sensor2Sensor 的 FVD 为 278.12 ,不使用视角拼接的变体是 293.73 ,π3 和 VGGT 分别达到 2007.35 和 2373.15 。

方法
FVD↓
PSNR↑
LPIPS↓
VGGT
2373.15
14.73
0.491
π3
2007.35
14.93
0.458
无 VC 变体
293.73
22.07
0.204
Sensor2Sensor
278.12
22.42
0.186

对自动驾驶日志来说,漂亮的单帧还不够。连续 3 秒、 10 秒甚至更长时间里,同一辆车不能忽大忽小,路沿和车道线也不能来回漂。自动驾驶感知模型通常会利用连续帧做跟踪、速度估计、轨迹预测;一旦合成视频里同一辆车每隔几帧变形一次,或者路边静态物体抖动,下游验证就会失真。

论文的消融也显示, DAgger 微调把前视 FVD 从 288.90 降到 278.12 , FID 从 24.65 降到 21.54 。提升幅度不夸张,但方向很明确:让模型提前适应自己的生成历史,会让 rollout 更稳。

结果三: LiDAR 是核心输出


Sensor2Sensor 的一个亮点是它同时生成 LiDAR ,图像和点云共同构成目标日志。

LiDAR 定量指标使用 Chamfer Distance 。相比 X-Drive 的 10.02 , Sensor2Sensor 达到 8.68 ,改善 13.37%。视觉上,它对近处车辆、卡车轮廓、道路周边静态结构的点云更干净,噪声更少,强度渲染也更合理。

方法
Chamfer↓
改善
X-Drive
10.02
Sensor2Sensor
8.68
13.37%
CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
LiDAR 对比: Sensor2Sensor 对卡车形状和周围物体的点云更稳定,噪声和强度错误更少。

更值得看的是图像和 LiDAR 的一致性。论文展示了图像里出现的标志牌、道路标线、车辆,在 LiDAR 结果里也能对应到合理的空间结构。这对仿真环境很关键,因为下游模型不会只看一张 RGB 图,它会把多传感器信息融合起来判断世界。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
图像与 LiDAR 联合生成:生成的点云与相机视角中的车辆、路面标志和交通元素保持空间对齐。

补充材料里的 LiDAR 样例更密集,能看到模型在多个输入场景下都倾向于生成更清晰的几何轮廓。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
补充 LiDAR 结果:相比基线, Sensor2Sensor 输出点云的噪声更少,空间关系保留更好。
CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
补充跨模态一致性结果:图像中的几何细节能在生成 LiDAR 中得到对应。

结果四:野外视频上,人类评测偏好很明显


Sensor2Sensor 最核心的目标是利用野外数据,所以论文专门测试了互联网驾驶视频、真实 dashcam 、手机录像和其他 ADAS 片段。场景包含夜间低可见度、近碰撞、事故和 active incidents 。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
野外视频泛化:模型把事故、夜间、低能见度等单目输入转换成完整多传感器日志。

人类评测由 26 名参与者完成,他们对 40 组、每组三个方法的生成结果做排序,评价维度是真实感和与输入对齐程度。

数据
图像 Top
LiDARTop
对比 X-Drive
Dashcam
83.46%
68.08%
图像 94.62%
Internet
84.62%
58.46%
图像 95.38%

LiDAR 的偏好率低于图像,但仍明显领先。我的判断是, LiDAR 偏好率低一些反而更接近真实难度:单目视频只给了前方纹理和少量运动线索,模型要补的是车辆侧后方、遮挡区域和深度结构,这已经越过了普通视频翻译任务的边界。模型能做到多数情况下更真实、更对齐,说明 4DGS 配对数据和跨传感器注意力确实在发挥作用。

消融:视角拼接和联合训练各自贡献什么


论文对架构做了两组关键消融。

第一组看输入条件怎么拼。通道拼接是把 dashcam 信息当作额外特征通道;视角拼接是把 dashcam 当作第 9 个已知视角。图像生成中, CAT3D + VC 的 FID 为 6.20 ,优于 CAT3D + CC 的 6.63 ;加入 LiDAR 后,完整模型 FID 为 6.47 , LPIPS 为 0.316 ,也优于 CC + LiDAR 变体。

变体
FID↓
PSNR↑
LPIPS↓
CC 图像
6.63
18.91
0.314
VC 图像
6.20
19.12
0.307
CC+LiDAR
6.88
18.69
0.346
VC+LiDAR
6.47
19.06
0.316

把这组消融翻成工程语言,重点其实有两个:

视角拼接更适合这类几何条件生成,因为输入 dashcam 被建模成一个真实视角,避免被压成一堆通道特征。
联合 LiDAR 训练会让图像指标略有波动,但完整模型仍保持竞争力,说明多模态联合没有明显牺牲图像质量。

第二组是 DAgger 。没有 DAgger 时,前视 FVD 为 288.90 ;加入 DAgger 后降到 278.12 。这个提升不是“换模型”的效果,更像是把推理时会遇到的错误上下文提前喂给模型,让它学会纠偏。

下游任务:生成数据能被真实感知模型消费


论文还做了一个很实用的检查:拿在真实数据上训练的感知模型,直接跑在生成数据上,不做 finetune 。

LiDAR 检测结果显示,车辆检测模型在真实和生成 LiDAR 上表现可比;图像分割中, Panoptic-DeepLab 在真实图像和生成图像上也能输出一致预测。这个实验给出的结论应该保守理解:生成数据还不能替代真实采集,但它已经接近到足以被现有感知模型读取和处理。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
LiDAR 检测:真实点云和生成点云上,车辆检测结果保持可比。
CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了
图像分割:真实图像和生成图像上的 panoptic segmentation 结果接近,说明生成图像保留了可用语义结构。

这项工作的边界


论文也承认了一个重要限制:长时间视频仍会漂移。

当前模型把强单帧生成能力扩展到自回归视频。 DAgger 能缓解短期误差累积,但超过 30 秒的长序列里,小的 LiDAR 几何漂移、视觉不一致、传感器标定感漂移仍可能逐步放大。

论文提出两个方向:

换成更强的长视频生成 backbone ,提高长程一致性。
扩大自回归条件窗口,不只看上一帧,而是看过去多个时刻,让模型拥有更长的时间上下文。

我会再补一个工程层面的疑问:如果这些生成日志用于安全验证,如何定义“生成结果足够可信”? FID 、 FVD 、人类偏好、 Chamfer Distance 都有价值,但它们还不能直接回答“某个碰撞场景转换后的 LiDAR 是否足以支撑安全结论”。后续可能需要任务级评测,比如检测、预测、规划模块在真实日志和转换日志上的行为一致性。

我的看法: Sensor2Sensor 更像自动驾驶的数据转接器


Sensor2Sensor 最有意思的地方,是它把生成模型放在数据基础设施的位置上。

过去很多自动驾驶生成模型关注“从文本生成驾驶场景”“预测未来帧”“构建可交互世界模型”。 Sensor2Sensor 的问题更窄,但工程价值很高:外部真实视频已经存在,怎么把它转接到目标车队的传感器体系里。

如果这条路线继续成熟,自动驾驶长尾数据的获取方式可能会改变。车队不一定只能等待自家车辆遇到稀有事件,也可以从互联网上、合作伙伴 dashcam 、手机记录中挖掘真实片段,再转换成内部仿真和验证可用的日志格式。

当然,生成数据不能直接等同于真实采集。它更像一个放大器:把真实世界事件的可用范围扩大,但每一次转换都需要被校验。尤其是涉及安全决策时,转换模型本身也必须进入验证链路。

从这个角度看, Sensor2Sensor 给出的是一个方向:自动驾驶数据可以跳出“采集来源”的划分方式,按“目标传感器形态”重新映射。

资源链接


? 论文链接
https://arxiv.org/abs/2605.22809

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器:长尾数据终于能进仿真了

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说