CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器：长尾数据终于能进仿真了

本文作者：陈淑瑜

2026-06-01 14:43

专题：CVPR 计算机视觉与模式识别会议

导语： Waymo 提出 Sensor2Sensor ，用 4D Gaussian Splatting 先把自家自动驾驶日志渲染成“行车记录仪视角”，再训练扩散模型把

来源：公众号“Hyman的杂货铺”

原文链接：https://mp.weixin.qq.com/s/LU5ldsQhD0EcIcOy0ynOtw

街上每天都有海量行车记录仪、手机拍摄、 ADAS 车辆视频。里面藏着很多自动驾驶系统最想要的东西：事故前几秒、夜间低能见度、奇怪并线、突发施工、行人横穿、车辆擦碰。这些场景真实发生过，物理过程也可信。

难点在另一个地方：自动驾驶系统不能直接吃这些视频。

一段普通行车记录仪视频通常只有一个前视单目视角，没有车辆顶部多路相机，没有环视覆盖，没有 LiDAR 点云，也没有目标车队对应的传感器标定。对一套依赖多相机和 LiDAR 的 ADS 来说，它像一段“看得见但用不上”的素材。

Sensor2Sensor 把问题改成了传感器转换：输入是野外来源的单目驾驶视频，输出是目标自动驾驶平台格式下的多视角相机画面和 LiDAR 点云。它的核心动作，是把真实视频重新投到目标车的传感器坐标系里，让一段外部单目视频变成内部系统能读取的多传感器日志。

CVPR 26 | Waymo把行车记录仪变成自动驾驶传感器：长尾数据终于能进仿真了

Sensor2Sensor 的目标：把手机、行车记录仪、互联网驾驶视频等单目来源，转换成目标自动驾驶车辆的多相机与 LiDAR 日志。

为什么这件事值得看

自动驾驶数据一直有两个互相拉扯的目标。

一边是自有车队采集的数据。它质量高，传感器完整，有精确标定，能直接进入训练、验证、仿真流程。但它贵，覆盖有限，尤其是长尾事件很难靠车队自然“等”出来。

另一边是开放世界里的第三方视频。规模极大，内容丰富，而且天然偏向长尾，因为日常平稳驾驶不会被频繁上传，异常事件反而更容易被记录下来。但这类视频缺少结构化传感器信息，很难被自动驾驶系统当作正式验证数据。

论文把这个矛盾概括为 embodiment gap ，也就是“载体差异”。同一个真实世界事件，发生在某个摄像头视角里；而你的 ADS 需要的是另一辆车、另一套相机、另一套 LiDAR 、另一组标定下的传感器观测。这类差异远远超过风格迁移，同时包含视角、几何、模态和时间一致性。

我的理解是， Sensor2Sensor 的价值落在一个非常具体的工程瓶颈上：怎么把外部真实长尾视频变成内部可消费的 AV log 。

训练数据怎么来：先反向造“配对样本”

最大的问题是没有配对数据。

如果要训练一个模型，把“行车记录仪视频”变成“目标自动驾驶日志”，理想训练集应该长这样：同一时刻、同一场景，既有第三方行车记录仪视角，又有目标自动驾驶车的 8 路相机和 LiDAR 。现实中这种配对几乎不存在。

论文的做法很工程：从已有 AV logs 出发，先用 4D Gaussian Splatting 重建动态驾驶场景，再从这个重建场景里渲染出各种“模拟第三方摄像头”。这样就得到一对训练样本：模拟行车记录仪视角作为输入，原始 AV 多传感器日志作为监督输出。

这一步里， 4DGS 更像一个几何老师：它负责把已有多相机和 LiDAR 观测整理成可重渲染的 4D 场景，为后续模型提供时间同步、空间对齐的训练对。

配对数据生成流程：先从 8 路相机重建 4DGS ，再渲染不同型号和安装位置的第三方摄像头视角。

论文使用约 10 万个 10 秒驾驶片段做 4DGS 重建。每个片段包含 360 度多视角相机数据和 LiDAR 数据， LiDAR 可用于初始化和约束 3D Gaussian 的几何。动态物体会通过规范物体模型做累积，以提升车辆、行人等移动对象的覆盖。

随后，系统采样第三方摄像头的内参和外参。

•内参方面，采样焦距、主点、畸变系数，用来模拟低成本广角镜头、鱼眼效果和不同 dashcam 光学配置。

•外参方面，采样相对车体的 6 自由度位姿，覆盖不同车型、安装高度、前后位置、偏航、俯仰和滚转误差。

•渲染阶段还考虑曝光补偿、 gamma 校正等光照归一化，让合成 dashcam 更接近真实野外视频。

补充材料里提到，轿车场景下摄像头高度会在 1.1 到 1.3 米附近采样，前向平移在 2.0 到 2.5 米区间内变化，焦距还会加入约 5% 的均匀扰动。这些细节让“合成第三方摄像头”具备真实安装和镜头差异，而非简单换一个视角。

补充材料展示的 4DGS 合成 dashcam ：不同摄像头参数会产生不同视角、畸变和安装效果。

模型怎么做：一个输入视角，生成 8 路相机和 LiDAR

Sensor2Sensor 的生成模型基于 Latent Diffusion 。它要同时输出两类东西：目标车辆的多视角相机图像，以及同一时刻的 LiDAR 点云。

论文把相机和 LiDAR 分开编码，再在扩散 U-Net 内部做跨视角、跨传感器融合。

Sensor2Sensor 架构：相机和 LiDAR 各自有 VAE 与 U-Net 分支，通过跨视角注意力和跨传感器注意力保持一致。

多视角相机生成

相机分支继承了多视角扩散模型的思路。它学习的是所有目标视角的联合分布，而非逐个孤立生成每个相机。为了让 8 路相机之间保持一致，模型把普通 2D attention 换成 3D attention ：既在空间维度上看图像内容，也在视角维度上交换信息。

相机位姿通过 raymap 注入。 Raymap 可以理解为每个像素对应的一条 3D 射线，包含射线起点和方向。模型看到的不只是“生成一张图”，还知道这张图对应车辆上哪个相机、朝哪里看、内外参是什么。

第三方 dashcam 输入会作为第 9 个视角加入模型。它的 latent 、 raymap 和二值 mask 会一起拼到视角维度里。这个 mask 告诉模型：这一视角是已知条件，不参与噪声还原；另外 8 个目标视角才是要生成的结果。

这会影响模型理解输入的方式。通道拼接容易把 dashcam 压成普通特征图；视角拼接则明确告诉模型：这是一台真实存在的已知相机，可以通过跨视角注意力与目标相机互动。

LiDAR 生成

LiDAR 点云没有直接作为无序点集生成，而是转成 range-view spin image 。论文使用一个形状为高度、宽度、通道的张量表示 LiDAR ，其中 4 个通道分别是：距离、反射强度、 elongation 和有效性 mask 。

距离会被截断到 150 米并线性归一化到 0 到 1 ，强度和 elongation 也做归一化。这样 LiDAR 可以更自然地进入 2D 生成模型。

LiDAR 分支有独立 VAE 。编码器和解码器都是卷积结构，训练目标包括距离、 elongation 、强度的 L1 重建，有效性 mask 的二元交叉熵，以及法线、 elongation 、强度、有效性上的 LPIPS 感知损失，再加 KL 正则。这里不必纠结每个损失项的公式，核心意思是：模型既要还原数值，也要让点云转换成图像表示后在结构和感知上更接近真实 LiDAR 。

跨传感器注意力

相机和 LiDAR 分支如果完全分开训练，很容易出现图像里有车、点云里没车，或者点云障碍物位置和图像对不上。论文在每个 U-Net block 里加入 cross-sensor attention 。

做法是把相机特征 token 和 LiDAR 特征 token 拉平后拼到同一个序列里，再做 self-attention 。这样图像和 LiDAR 的特征能在去噪过程中互相引用。对自动驾驶来说，这一步比单纯提升视觉效果更有意义，因为下游感知和仿真系统需要跨模态一致的世界，而非两份各自看起来不错的数据。

视频怎么保持稳定： DAgger 用在自回归生成上

单帧能生成还不够。真实 driving log 是一段连续传感器序列。

论文把模型扩展为自回归视频生成：当前时刻的第三方视频帧，加上上一时刻自己生成的相机和 LiDAR ，一起作为条件，生成当前时刻的 8 路相机和 LiDAR 。

问题也随之出现：训练时模型常常看到真实上一帧，推理时却只能看到自己上一帧生成的结果。小错误会沿时间累积，最后变成闪烁、漂移、几何错位。

论文借用了 DAgger 思路来缩小训练和推理差异。训练流程分为四步：

1.先训练单帧条件生成模型。

2.再加入上一帧相机与 LiDAR latent 的条件，做前帧条件微调。

3.用模型自己滚动生成一批带误差的 rollout 数据。

4.再用这些模型生成的历史状态继续微调，让模型学会在自己的错误上下文里恢复。

补充材料给出的实现细节是：训练使用 128 个 TPU ， AdamW 优化器，学习率 5e-5 ，全局梯度裁剪为 1.0 ， EMA 衰减为 0.999 。三个主要阶段分别训练 8 万、 4 万和 2 万步，模型参数规模约 2.5 亿。

视频 rollout 对比： DAgger 训练能减少时间展开过程中的闪烁和漂移，前视画面更稳定。

实验设置：论文自己搭了一个新评测

因为“单目第三方视频到完整 AV sensor suite”这个任务此前没有标准数据集，论文自建了两个评测部分。

第一部分是 1000 段配对的 Fixed-Camera-to-AV log ，每段 3 秒。输入相机固定在自动驾驶车前左保险杠附近，目标输出是车顶 8 路环视相机和 LiDAR 。因为这一路输入与目标传感器同步且标定已知，所以能做 PSNR 、 SSIM 、 LPIPS 、 FID 、 FVD 、 Chamfer Distance 等定量比较。

第二部分是 in-the-wild 数据，包括手工采集的真实 dashcam 、互联网上的驾驶视频、手机录制视频和其他 ADAS 来源，用于观察模型面对未知相机、未知天气、未知场景内容时的泛化能力。

基线方面，论文改造了几类方法： VGGT 和 π3 代表前馈 3D 重建路线； X-Drive 代表图像和 LiDAR 联合生成路线； CAT3D 相关变体用于比较输入条件的通道拼接和视角拼接。

结果一：多视角图像生成明显领先

在 Fixed-Camera-to-AV 多视角图像生成任务上， Sensor2Sensor 的 FID 为 6.47 ， LPIPS 为 0.316 ，优于 VGGT 、π3 、 X-Drive 和不使用视角拼接的变体。

方法	FID↓	PSNR↑	LPIPS↓
VGGT	250.93	14.73	0.491
π3	246.27	14.93	0.458
X-Drive	8.30	18.61	0.345
无 VC 变体	6.88	18.69	0.346
Sensor2Sensor	6.47	19.06	0.316

视觉上， Sensor2Sensor 生成的多视角画面更清晰，对车辆形状、场景结构、被遮挡区域补全更稳。重建类模型在未观察区域容易出现空洞或几何变形；生成类基线虽然图像更像真实，但多视角结构和对象一致性仍弱一些。

图像生成对比： Sensor2Sensor 更接近真实目标视角，基线方法更容易出现模糊、形状错误或未观察区域生成失败。

补充材料进一步展示了不同车辆位置和颜色下的图像生成。可以看到，模型并非只把前视输入复制到周围视角，而是在推断车辆周边结构、目标车身形状和遮挡区域。

补充图像结果：在多车前方场景中， Sensor2Sensor 对车辆形状和颜色的保持更稳定。

更多图像结果：面对倾斜车辆、迎面车辆等输入，模型仍能生成较一致的目标视角。

结果二：视频 FVD 从两千级降到两百级

视频生成任务只比较前视生成视频，因为 VGGT 和 π3 在其他视角会出现大面积空洞。 Sensor2Sensor 的 FVD 为 278.12 ，不使用视角拼接的变体是 293.73 ，π3 和 VGGT 分别达到 2007.35 和 2373.15 。

方法	FVD↓	PSNR↑	LPIPS↓
VGGT	2373.15	14.73	0.491
π3	2007.35	14.93	0.458
无 VC 变体	293.73	22.07	0.204
Sensor2Sensor	278.12	22.42	0.186

对自动驾驶日志来说，漂亮的单帧还不够。连续 3 秒、 10 秒甚至更长时间里，同一辆车不能忽大忽小，路沿和车道线也不能来回漂。自动驾驶感知模型通常会利用连续帧做跟踪、速度估计、轨迹预测；一旦合成视频里同一辆车每隔几帧变形一次，或者路边静态物体抖动，下游验证就会失真。

论文的消融也显示， DAgger 微调把前视 FVD 从 288.90 降到 278.12 ， FID 从 24.65 降到 21.54 。提升幅度不夸张，但方向很明确：让模型提前适应自己的生成历史，会让 rollout 更稳。

结果三： LiDAR 是核心输出

Sensor2Sensor 的一个亮点是它同时生成 LiDAR ，图像和点云共同构成目标日志。

LiDAR 定量指标使用 Chamfer Distance 。相比 X-Drive 的 10.02 ， Sensor2Sensor 达到 8.68 ，改善 13.37%。视觉上，它对近处车辆、卡车轮廓、道路周边静态结构的点云更干净，噪声更少，强度渲染也更合理。

方法	Chamfer↓	改善
X-Drive	10.02	—
Sensor2Sensor	8.68	13.37%

LiDAR 对比： Sensor2Sensor 对卡车形状和周围物体的点云更稳定，噪声和强度错误更少。

更值得看的是图像和 LiDAR 的一致性。论文展示了图像里出现的标志牌、道路标线、车辆，在 LiDAR 结果里也能对应到合理的空间结构。这对仿真环境很关键，因为下游模型不会只看一张 RGB 图，它会把多传感器信息融合起来判断世界。

图像与 LiDAR 联合生成：生成的点云与相机视角中的车辆、路面标志和交通元素保持空间对齐。

补充材料里的 LiDAR 样例更密集，能看到模型在多个输入场景下都倾向于生成更清晰的几何轮廓。

补充 LiDAR 结果：相比基线， Sensor2Sensor 输出点云的噪声更少，空间关系保留更好。

补充跨模态一致性结果：图像中的几何细节能在生成 LiDAR 中得到对应。

结果四：野外视频上，人类评测偏好很明显

Sensor2Sensor 最核心的目标是利用野外数据，所以论文专门测试了互联网驾驶视频、真实 dashcam 、手机录像和其他 ADAS 片段。场景包含夜间低可见度、近碰撞、事故和 active incidents 。

野外视频泛化：模型把事故、夜间、低能见度等单目输入转换成完整多传感器日志。

人类评测由 26 名参与者完成，他们对 40 组、每组三个方法的生成结果做排序，评价维度是真实感和与输入对齐程度。

数据	图像 Top	LiDARTop	对比 X-Drive
Dashcam	83.46%	68.08%	图像 94.62%
Internet	84.62%	58.46%	图像 95.38%

LiDAR 的偏好率低于图像，但仍明显领先。我的判断是， LiDAR 偏好率低一些反而更接近真实难度：单目视频只给了前方纹理和少量运动线索，模型要补的是车辆侧后方、遮挡区域和深度结构，这已经越过了普通视频翻译任务的边界。模型能做到多数情况下更真实、更对齐，说明 4DGS 配对数据和跨传感器注意力确实在发挥作用。

消融：视角拼接和联合训练各自贡献什么

论文对架构做了两组关键消融。

第一组看输入条件怎么拼。通道拼接是把 dashcam 信息当作额外特征通道；视角拼接是把 dashcam 当作第 9 个已知视角。图像生成中， CAT3D + VC 的 FID 为 6.20 ，优于 CAT3D + CC 的 6.63 ；加入 LiDAR 后，完整模型 FID 为 6.47 ， LPIPS 为 0.316 ，也优于 CC + LiDAR 变体。

变体	FID↓	PSNR↑	LPIPS↓
CC 图像	6.63	18.91	0.314
VC 图像	6.20	19.12	0.307
CC+LiDAR	6.88	18.69	0.346
VC+LiDAR	6.47	19.06	0.316

把这组消融翻成工程语言，重点其实有两个：

•视角拼接更适合这类几何条件生成，因为输入 dashcam 被建模成一个真实视角，避免被压成一堆通道特征。

•联合 LiDAR 训练会让图像指标略有波动，但完整模型仍保持竞争力，说明多模态联合没有明显牺牲图像质量。

第二组是 DAgger 。没有 DAgger 时，前视 FVD 为 288.90 ；加入 DAgger 后降到 278.12 。这个提升不是“换模型”的效果，更像是把推理时会遇到的错误上下文提前喂给模型，让它学会纠偏。

下游任务：生成数据能被真实感知模型消费

论文还做了一个很实用的检查：拿在真实数据上训练的感知模型，直接跑在生成数据上，不做 finetune 。

LiDAR 检测结果显示，车辆检测模型在真实和生成 LiDAR 上表现可比；图像分割中， Panoptic-DeepLab 在真实图像和生成图像上也能输出一致预测。这个实验给出的结论应该保守理解：生成数据还不能替代真实采集，但它已经接近到足以被现有感知模型读取和处理。

LiDAR 检测：真实点云和生成点云上，车辆检测结果保持可比。

图像分割：真实图像和生成图像上的 panoptic segmentation 结果接近，说明生成图像保留了可用语义结构。

这项工作的边界

论文也承认了一个重要限制：长时间视频仍会漂移。

当前模型把强单帧生成能力扩展到自回归视频。 DAgger 能缓解短期误差累积，但超过 30 秒的长序列里，小的 LiDAR 几何漂移、视觉不一致、传感器标定感漂移仍可能逐步放大。

论文提出两个方向：

•换成更强的长视频生成 backbone ，提高长程一致性。

•扩大自回归条件窗口，不只看上一帧，而是看过去多个时刻，让模型拥有更长的时间上下文。

我会再补一个工程层面的疑问：如果这些生成日志用于安全验证，如何定义“生成结果足够可信”？ FID 、 FVD 、人类偏好、 Chamfer Distance 都有价值，但它们还不能直接回答“某个碰撞场景转换后的 LiDAR 是否足以支撑安全结论”。后续可能需要任务级评测，比如检测、预测、规划模块在真实日志和转换日志上的行为一致性。