0
| 本文作者: 陈淑瑜 | 2026-05-26 17:34 | 专题:CVPR 计算机视觉与模式识别会议 |
▶ DeltaTok: Temporal Difference Tokenization for Video Generation
摘要:DeltaTok 工作解决了视频生成中 token 序列过长导致计算开销巨大的问题。核心创新在于以 1 个 token 表示帧间变化(Delta),而非完整帧,实现约 1000× 压缩率;设计哲学为“不要增加 token 数量表征复杂度,而是压缩时间本身”。完整技术栈为 DINO 特征 → Delta Token → 语义分割输出,端到端延迟约 600ms。该工作入选 CVPR 2026 Highlight,X 平台互动量持续增长(26 赞 / 3.5K views,较上期增长 37%)。
链接:https://x.com/junfanzhu98/status/2058454014212358599
▶ DeltaWorld: Learning World Models with Temporal Difference Tokens
摘要:DeltaWorld 工作解决了世界模型中多未来预测的效率瓶颈问题。通过学习 Delta token 的分布而非原始帧分布,实现多未来预测;与 DeltaTok 共享“压缩时间本身”的设计哲学,DeltaWorld 将世界模型从逐帧预测升级为帧间变化建模。该工作同样入选 CVPR 2026 Highlight,World Model Reading Club CVPR 预热系列第 9 期 Part 1 由朱俊帆主讲 Recap,技术解读持续深入。
链接:https://x.com/junfanzhu98/status/2058454014212358599
▶ Reactor World Model Side Event @CVPR 2026
摘要:Reactor World 在 CVPR 2026 期间举办线下活动,主题为 World Models 和 Realtime Video,面向参会者开放。该 Side Event 为本期互动量最高推文(34 赞 / 1.5K views),标志着世界模型研究从论文发表走向社区化运营——研究者不再满足于被动等待审稿结果,而是主动组织线下深度交流。该活动在 CVPR 期间(6/3~6/7)举行,预期将产出世界模型前沿方向的一手讨论素材。
链接:https://x.com/taiuti/status/2058919054317072817

▶ T4V Workshop @CVPR 2026 — Transformers for Vision and Multimodal AI
摘要:T4V Workshop 由 NVIDIA / UNC / Meta 联合组织,主题涵盖 image / video / 3D / MLLM / efficient attention / SSMs 六大方向。六位 Keynote 演讲者已确认:Ranjay Krishna、Thomas Gu、Sherry Yang、Jc Niebles、Zhuang Liu、Tong Peter,覆盖视觉理解、多模态大模型、3D 生成等前沿领域。Workshop 时间为 6/3(Wed)1:45-5:40pm,Room 607。本期互动 20 赞 / 907 views,NVIDIA 和 Meta 的联合背书使其成为 CVPR 期间最受关注的 Workshop 之一。
链接:https://x.com/CMHungSteven/status/2058946589763436669 雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。