中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

本文作者：郑佳美

2026-03-30 14:36

导语：基于事件链与关键帧机制，提升时序与因果一致性。

想象这样一些常见却又微妙的场景：一勺蜂蜜缓慢倒入热茶，本应拉出细长连续的丝状流动，但很多生成视频却会突然断裂甚至凭空消失；一块冰在室温下逐渐融化，真实过程应该是边缘先软化、体积变化、最终消散，而生成结果却常常直接从完整变成消失；一个玻璃球落入水中，本应经历接触水面、减速下沉、逐渐稳定的过程，但模型却可能只给出一个结果画面。

这些现象并不罕见，也正是当前视频生成技术最容易让人出戏的地方。画面看起来像，但过程不对，缺乏因果关系，也缺乏真实世界中那种连续演化的逻辑。

随着视频生成模型的发展，从 OpenAI Sora 到 Kling 等系统不断刷新视觉质量的上限，行业已经基本解决了清晰度和风格的问题，却逐渐暴露出更深层的瓶颈，即模型缺乏对物理规律的理解能力。

现有方法更多依赖数据驱动的模式匹配，本质上是在生成看起来合理的结果，而不是在模拟真实发生的过程，这也导致在流体、热变化以及多物体交互等场景中表现明显不足。

在这样的背景下，来自四川大学的雷印杰团队提出了一项新的研究工作《Chain of Event-Centric Causal Thought for Physically Plausible Video Generation》。这项研究不再直接从文本生成视频，而是尝试让模型先理解物理过程本身，将复杂现象拆分为一系列具有因果关系的事件，并结合物理规律进行约束，再逐步生成视频内容。

通过这种方式，目标不再只是让画面看起来真实，而是让变化过程本身也符合现实世界的运行逻辑，从而在更深层次上提升视频生成的可信度和一致性。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

论文地址：https://arxiv.org/pdf/2603.09094

更加符合「真实世界」的方式

在实验结果方面，研究团队首先在 PhyGenBench 数据集上进行了系统评估。这个数据集包含 160 条物理描述，覆盖力学、光学、热学和材料四类典型物理场景。

整体性能上，研究方法取得了 0.66 的得分，而此前最优方法 PhysHPO 为 0.61，实现了 0.05 的绝对提升，对应约 8.19% 的相对提升。同时，与基础视频生成模型相比优势更加明显，例如 Kling 为 0.49，Gen-3 为 0.51，CogVideoX 为 0.45，而研究方法达到 0.66，相当于提升约 0.15 到 0.21，整体相对提升超过 30%，说明性能提升幅度非常显著。

在分领域结果上，研究方法在四个方向分别取得了不同成绩。力学方向为 0.67，相比此前约 0.55 提升了 0.12；光学方向为 0.72，相比 0.68 提升了 0.04，热学方向为 0.65，相比 0.58 提升了 0.07；材料方向为 0.60，虽然低于最高值 0.65，但仍保持接近水平。从整体来看，在四个物理领域中有三个取得第一，综合表现最强。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

进一步的细粒度分析中，研究团队将能力拆分为物理现象识别能力和物理顺序正确性两个指标。在力学场景中，研究方法的物理现象识别为 0.79，物理顺序为 0.79，而对比方法 DiffPhy 分别为 0.73 和 0.53，顺序正确性从 0.53 提升到 0.79，提升幅度达到 0.26。

在光学场景中，研究方法分别为 0.84 和 0.85，对比方法为 0.83 和 0.66，顺序提升为 0.19。在热学场景中，研究方法为 0.78 和 0.69，对比方法为 0.70 和 0.58，顺序提升为 0.11。可以看出，最显著的提升集中在物理过程顺序这一指标上，说明模型在时间顺序和因果逻辑方面的能力得到明显增强。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

在 VideoPhy 数据集上，研究方法同样表现出良好的泛化能力。这个数据集包含 688 条更贴近真实应用的提示，涵盖固体与固体、固体与液体以及液体与液体之间的复杂交互。评价指标为同时满足语义一致性和物理合理性的比例，即语义正确且物理正确。

研究方法取得 49.3% 的结果，而此前最优方法约为 45.9%，提升 3.4%。与基础模型相比，CogVideoX 为 39.6%，研究方法提升了 9.7%。在不同交互类型中，提升最明显的是流体相关场景，例如液体流动、蜂蜜倒入等连续变化过程，整体提升超过 10%，说明在处理连续物理动态方面具有明显优势。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

为了进一步验证方法的有效性，研究团队进行了消融实验。在去掉物理公式模块后，性能从 0.66 下降到 0.62，下降 0.04，约 6%。去掉事件分解模块后，结果降至 0.59，下降 0.07，约 11%。去掉文本渐进生成模块后，结果为 0.64，下降 0.02，约 3%。而去掉关键帧生成模块后，性能降至 0.55，下降 0.11，约 17%，是影响最大的部分。这说明事件链结构和关键帧机制在整个方法中起到最核心作用。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

此外，研究团队还分析了事件数量对性能的影响。当事件数量为 1 到 3 时，由于信息不足，性能下降；当事件数量为 4 时，性能达到最佳；当增加到 5 到 6 时，由于误差在关键帧和推理过程中逐步累积，性能反而下降。这说明事件数量存在一个最优范围，过少无法表达完整过程，过多会引入不稳定性。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

从一句话，到一整个物理过程

为了得到满意的实验结果，研究团队首先进行了统一的实验设置。视频生成模型采用 CogVideoX-5B，生成视频的分辨率为 1360×768，每个视频包含 161 帧。在语言推理部分，使用的模型为 GPT-OSS-20B，在图像编辑阶段使用 Qwen-Image 模型，用于生成关键帧并引导后续视频生成过程。

在具体流程上，整个过程按照多个步骤逐步进行。首先输入文本描述，例如“蜂蜜倒入杯中”。随后模型对文本进行理解，自动识别其中涉及的物理规律，例如判断属于流体力学范畴，并识别出包含体积变化和连续流动等特征。在完成物理规律识别之后，系统会从知识库中检索与这一过程相对应的物理公式，用于后续推理和约束。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

在此基础上，研究团队构建事件链结构，即通过 PECR 模块将完整物理过程拆分为多个连续事件。例如将“蜂蜜倒入杯中”这一过程分解为开始倒入、接触杯子、液体逐渐堆积以及液面上升等阶段。雷峰网(公众号：雷峰网)

每一个事件不仅包含对应的语义描述，还包含物理参数信息，例如高度和体积变化，同时还包括场景关系信息，例如不同物体之间的上下关系。通过这种方式，将原本连续的物理过程转化为离散的事件序列，从而为后续建模提供清晰的结构。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

接下来进入语义提示生成阶段。模型会为每一个事件生成对应的描述语句，然后再将这些描述整合为一个完整的句子，通常采用“首先、然后、最后”等表达形式，从而形成具有因果逻辑的整体语义提示，保证事件之间的顺序关系清晰一致。

随后进行视觉提示生成，即关键帧生成阶段。针对每一个事件生成一张对应图像，并通过图像编辑方式逐步对画面进行修改，同时控制变化幅度，例如液体高度的增加量。这种方式能够避免完全随机生成，使视觉变化更加稳定且符合物理过程。

在关键帧生成完成之后，系统会在相邻关键帧之间插入中间帧，通过插值方式构建连续过渡，再将这些信息输入扩散模型，最终生成完整视频。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

在对比实验部分，研究团队采用统一设置进行评估，包括使用相同的文本输入、相同的数据集以及相同的评价指标。在此基础上，将研究方法与不同类型模型进行对比，包括普通视频生成模型如 Kling 和 Gen-3，以及物理增强模型如 DiffPhy 和 PhysHPO，从而保证实验结果具有公平性和可比性。

从生成画面，到模拟现实

这项研究的意义，其实可以从一个很直观的变化来理解。以往的视频生成更像是在“拼画面”，模型只需要让结果看起来像真实世界即可，但一旦仔细观察过程，就会发现很多不合理之处。例如液体不会连续流动，物体运动缺乏前后关系，甚至出现违背常识的变化。这些问题本质上源于模型缺乏因果关系、时间逻辑以及对物理规律的理解，使得视频虽然“像”，却不“真”。

研究团队在此基础上带来的改变，是把视频生成从简单的画面合成，转变为对过程本身的建模。原本是从文本直接生成一段图像序列，现在变成先构建一条具有因果关系的事件链，再基于这条事件链生成视频。

这样的变化意味着模型不再只是输出结果，而是开始“经历过程”，在结构上自然引入时间顺序和前后逻辑，使视频更接近现实世界的演化方式。雷峰网

这种能力提升的关键在于三个方面的结合。首先是物理约束能力，通过引入物理公式，让生成过程不再随意变化，而是受到现实规律的限制。其次是因果结构建模能力，通过事件链明确每一步应该如何发生，保证顺序正确。最后是视觉锚点能力，通过关键帧约束中间过程，使画面变化更加连续和稳定。这三者共同作用，使模型从“生成看起来合理的结果”，迈向“模拟真实发生的过程”。

当然，这一变化对普通人的影响其实非常直接。未来在短视频创作中，用户只需要输入一个简单描述，就可以生成更真实、更连贯的动态内容，不再出现违和感；在教育场景中，可以用视频直观展示复杂的物理过程，例如液体流动、光线传播或物体运动，让抽象概念变得可视化；在游戏和虚拟世界中，环境中的变化也会更加符合现实规律，提高沉浸感；甚至在自动驾驶和机器人训练中，这种更真实的模拟能力也有助于模型更好地理解现实环境。

从更长远的角度来看，这项研究把视频生成从视觉任务提升为物理过程建模问题，为构建更接近真实世界的智能系统提供了基础。

不过研究团队也指出，目前方法在面对多个物理规律同时作用的复杂场景时仍然存在困难，例如牛顿摆与水爆炸同时发生的情况，模型容易失效。这也说明在组合物理推理方面仍有明显提升空间，也为后续研究指明了方向。

推动生成走向「因果」的他们

这篇论文的通讯作者雷印杰，现为四川大学教授、博士生导师，同时入选国家级青年人才项目，长期从事人工智能相关研究工作。

在个人经历方面，雷印杰具有系统的学术培养背景，分别于 2006 年、2009 年和 2013 年在西南交通大学、四川大学和澳大利亚西澳大学获得本科、硕士和博士学位。

2013 年 12 月进入四川大学电子信息学院，从事教学与科研工作，随后在 2017 年 9 月起担任四川大学电子信息学院副院长。在此过程中，还入选四川省特聘专家、四川省学术和技术带头人后备人选，并获得四川杰出青年科学基金支持。

在研究方向上，雷印杰主要聚焦人工智能领域相关问题。科研工作方面，他长期主持和参与国家级科研项目及企业合作项目，研究内容涵盖人工智能、计算机视觉以及多模态理解等方向，在学术研究与工程应用之间形成了较好的结合。

中山大学梁小丹团队论文：让视频生成从「看起来真实」到「物理上正确」丨CVPR 2026

参考链接：https://eie.scu.edu.cn/info/1044/13503.htm

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

郑佳美

编辑

发私信

当月热门文章