视频「听」出物理！Sony联研Oral出炉，卡车感知崩了31%-99%

本文作者：陈淑瑜

2026-05-28 10:13

导语：物理AI上Oral+卡车长距崩塌+6DoF爆赞，视觉×物理成主线

本期CVPR 2026日报迎来Oral论文集中爆发——物理AI方向首次拿下Oral席位，Sony AI联合KAIST/POSTECH让视频「听」出物理属性；与此同时，自动驾驶感知的残酷真相被一组卡车数据集揭穿，SOTA模型在150米外精度断崖式下跌；加上连续3期霸榜的EgoFlow用Flow Matching重构6DoF运动生成，视觉×物理融合正成为本届CVPR最清晰的主线。以下三大议题，带你速览今日最热。

热门议题一物理AI首次拿下Oral，视频生成音效突破多模态边界

PAVAS: Physics-Aware Video-to-Audio (CVPR 2026 Oral)

PAVAS工作解决了视频生成音频时缺乏物理感知导致音效不真实的问题，创新点在于模型能理解视频中的质量、速度和碰撞等物理信息，据此生成逼真音效，实现物理感知驱动的跨模态生成。

成果：CVPR 2026 Oral Presentation，KAIST+POSTECH+Sony AI联合出品，物理AI+多模态交叉方向独特突破。

论文链接：https://x.com/kaistpr/status/2059493763022766566

来源：@kaistpr (KAIST/POSTECH/Sony AI) | 日期：2026-05-27

视频「听」出物理！Sony联研Oral出炉，卡车感知崩了31%-99%

热门议题二 SOTA模型150m外崩塌！卡车长距感知数据集揭开残酷真相

TruckDrive: Long-Range Truck Autonomy Dataset (CVPR 2026)

TruckDrive工作解决了长途卡车自动驾驶缺乏长距感知评测数据集的问题，创新点在于构建了475K样本（165K密集标注帧）的长距数据集，传感器套件含7个长程FMCW LiDAR+3个短程LiDAR+11个8MP摄像头+10个4D FMCW雷达。核心发现：当前SOTA模型在150m以外3D感知任务精度下降31%-99%，暴露长距泛化的巨大空白，为自动驾驶感知研究敲响警钟。Torc Robotics+Princeton (Felix Heide)联合出品。

论文链接：https://x.com/FelixHeide/status/2059620592836325547

来源：@FelixHeide (Torc Robotics/Princeton) | 日期：2026-05-27

视频「听」出物理！Sony联研Oral出炉，卡车感知崩了31%-99%

热门议题三 Flow Matching+物理约束重构6DoF运动生成

EgoFlow: Flow Matching + Gradient-Guided Physical Constraints for Egocentric 6DoF Object Motion (CVPR 2026)

EgoFlow工作解决了从自我中心视频预测物体6DoF运动且保持物理可行性的问题，创新点在于将Flow Matching与gradient-guided物理约束结合，实现自我中心视角下真实感的物体运动生成。TUM CVG团队（Daniel Cremers等）出品，连续3期出现在日报中（5/26→5/27→5/28），代表Flow Matching在视觉任务中的前沿应用方向，与PAVAS、GeoFreeNVS Workshop共同印证视觉×物理融合为本届CVPR核心主线。

论文链接：https://x.com/abhi_saroha19/status/2059240832146850121

来源：@abhi_saroha19 (TUM CVG) | 日期：2026-05-26

视频「听」出物理！Sony联研Oral出炉，卡车感知崩了31%-99%