3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

本文作者：吴思梦

2026-06-08 10:05

导语：结合了结构的“结构化世界模型”，完全可以作为一种无限可扩展的数据引擎，扛起大规模机器人模型训练与验证的重任

作者｜岑峰

2026年6月1日，机器人领域最重要的学术会议国际机器人与自动化会议（ICRA）在奥地利维也纳召开。

在首日举行的“Synthetic Data for Robot Learning” Workshop上，哥伦比亚大学助理教授李昀烛（Yunzhu Li）发表了题为“Structured World Models as Scalable Data Enginesfor Robot Policy Training and Evaluation”的演讲，直击了当今具身智能领域面临的核心痛点：真实物理交互数据采集成本极高，且模型试错与评估极其困难。

3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

为此，他提出将结构化世界模型（Structured World Models）作为机器人策略训练与评估的“无限数据引擎”。演讲指出，纯端到端大模型缺乏物理常识，而纯物理引擎又受限于严苛的观测条件。团队从而开辟了一条融合两者优势的“中间路线”：

总结而言，将3D物理先验与海量2D数据学习深度融合，是突破机器人基础模型（Foundation Models）数据瓶颈的必由之路。

（编者按：雷峰网(公众号：雷峰网)·AI科技评论此前在《MIT具身智能达人志》一文中有提及李昀烛亲历 Learning 深刻改变机器人领域的经历，MIT博士毕业后，李昀烛在哥伦比亚大学任职推进世界模型与多模态感知。）

以下是李昀烛在ICRA 2026大会发表的演讲精编稿，AI科技评论基于原英文演讲内容进行了不改原意的翻译编辑：

《Structured World Models as Scalable Data Engines for Robot Policy Training and Evaluation》

主讲人：李昀竹（Yunzhu Li），哥伦比亚大学

从刚体环境到“结构化世界模型”

感谢主持人的介绍。今天我非常荣幸能与各位分享我们在“构建环境结构化世界模型”方向上的最新探索。我将向大家展示，如何将这些世界模型转化为强大的数据引擎，以赋能机器人策略的训练与评估。

最近，机器人的某些子领域正经历着爆炸式的突破——比如现在满地跑的人形机器人，或者越来越普及的自动驾驶。但当我们把目光转向“与环境的复杂物理交互”时，我们到底走到了哪一步？离真正人类水平的操作能力还有多远？

尽管学术界每天都有各种炫酷的 Demo刷屏，但工业界真正大规模部署的，依然是针对规则几何体的简单“拾取与放置”机器人。这显然不是我们的终极愿景。不仅能驾驭结构化环境，还能在充满未知的非结构化场景中游刃有余；不仅能摆弄刚硬的铁块，还能处理柔软易变的柔性物体，从而胜任长周期、大跨度的复杂任务。要做到这些，系统所需的泛化与适应能力，必须远远甩开现有的技术基线。

3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

看到大语言模型和视觉模型的惊人成功后，很多人自然会问：这套基础模型的打法能直接复刻到机器人上吗？目前主要有两条路线：一种类似“搭积木”，将基础模型与系统结合，构建一些结构化的中间接口，以便将基础模型的知识传达给机器人；另一条路线则是“端到端”。构建这种端到端模型通常有两种方式：从视觉语言模型（VLM）进行预训练，或者从世界模型/视频模型进行预训练。

3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

然而挑战依然如影随形：比如可控性，模型真的会听从你对机器人的指令吗？能否仅仅通过改变语言指令，就能轻松引导机器人从一个任务无缝切换到另一个任务？更致命的是，视觉语言大模型根本不懂底层的物理法则，如何将预测的视频画面落实到下游底层的物理运动控制中，仍然是一个未解决的问题。此外系统还面临着可调试性和可扩展性的问题。尽管人们在推动“基础模型与机器人操作结合”方面取得了很大进展，但仍有许多需要解答的问题。

我认为，在这个拼图中缺失的最关键一环，就是环境模型（Models of the environment）。这个模型可以是基于物理的、基于学习的，回顾一下，正是因为这种模型的存在，火箭才能升空、无人机才能翱翔，甚至四足机器狗能在野外狂奔。虽然模型永远不可能 100%完美，但正是它们，让机器在真实的物理世界中拥有了立足之本。

对于机器人的灵巧操作而言，我们也必须在它的大脑里建立一个物理世界的“心理模型（Mental Model）”。我们需要能够预测：当机械臂推出去时，面团会怎么变形？洋葱块会如何滚落？正是这种正向预测能力，赋能了机器人的行为规划。

那么，如何构建这个模型？如果把技术路线比作一个光谱：光谱最左边是纯基于学习（Pure learning-based）的方法，例如DeepMind 的 Genie 3就是这个方向上的绝佳代表；光谱最右边则是纯依赖物理规则的方法，比如NVIDIA Warp/Flex。这两端各有千秋，但我最核心的考量是：这两端的中间地带是否存在某种“黄金地带”，能把两者的优势一网打尽？

过去几年，我们的答案是：以图（Graph）为核心的神经动力学模型。我们将物体拆解为无数个粒子，以此来描述刚性和可变形物体内部及相互之间的物理约束规则。我们在CoRL 大会上拿过最佳系统论文的一个案例，就是让机器人捏面团。机器人可以使用随机3D打印的工具，在面团上随便“把玩”十几分钟，我们的神经动力学模型能够预测出：当你使用特定工具施加特定动作时，面团的形状会如何发生形变。这种预测能力让机器人能够进行行为的逆向规划，并最终成功把面团做成饺子。

3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

同样的逻辑，我们也完美应用到了不规则的颗粒物重排、多物体复杂碰撞等高难度任务中。例如我们可以规划机器人的行为，将颗粒重新分布成不同的目标形状，也就是从字母 A 到 Z 的形状。这是一个高度复杂的任务，涉及到颗粒物极不规则的重新分布，以及与目标字母形状的细粒度对齐。

前两年的年底，我们在《Science Robotics》上发表了一篇综述论文，回顾了过去十多年里关于“用于机器人操作的基于学习的动力学模型”研究。这篇论文的整体结构正是建立在我当年博士论文的框架之上的。它真正反映了过去几年我们在构建该领域模型时，对其中无数细微差别与权衡的深度思考。

数字孪生：突破真机测试的效率瓶颈

沿着这个思路往下走，我们不禁会问：“接下来呢？”

我们绝不能永远被困在实验室的桌面上，而是要扩展到更广泛的自然场景数据收集中去。行业内正投入量的人力物力去真实世界里采集物理交互数据。如果这些带着极高“物理含金量”的数据，最后仅仅被拿去跑一个简单的模仿学习，那简直是暴殄天物！在这些带有动作条件的真实数据中，蕴含着非常丰富的物理定律。我们完全可以把它们提炼成动力学模型，进而向构建“用于机器人策略训练和评估的可扩展数据引擎”的目标迈进。

3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

我们再回顾一下刚才提到的那个技术光谱，我们在偏向“基于物理建模”方向上做了一项核心工作：建可变形物体的数字孪生数字孪生是什么意思是一个包含可变形物体外观、几何形状和动力学特征的物理学实体副本。

大家在左边看到的是输入我们系统的实拍视频。中间，我们展示了重建出的、随时间追踪的物体几何形状，以及用于描述人类手部输入动作轨迹的球体网络；在右侧，背景是实拍视频，前景是我们基于动作条件渲染出来的3D视频预测它们完美重合。有了这个数字孪生体，你甚至可以用鼠标键盘像玩沙盒游戏一样去揉捏那块虚拟布料。这个框架同样适用于布料、绳索等其他可变形物体。

这项工作一经发布，Google 机器人团队的朋友就找上门来，希望用这套模型来做策略评估。为什么？因为对于 Google这样的大厂，训练一个基础模型可能会产出成百上千个Checkpoints，但由于真机测试太慢，他们只能挑屈指可数的几个扔到物理世界里去跑，测一轮就得等上一两天。

这是当前机器人研发最致命的效率瓶颈。他们当时向我吐槽：“哪怕全靠烧钱堆真机，我们硬磕也能磨出结果来。”——但前提只是针对桌面环境的简单Gemini 机器人任务。如果他们转向运行周期更长、规模更大、更复杂的任务，这种砸钱堆真机的迭代速度就会断崖式下跌。

为了解决这个痛点，我们彻底简化了这种“数字孪生”的构建流程。现在，我们只需要拿着相机绕着物体走一圈，就能捕获机器人、背景和物体的外观及几何形状，并通过几次简短的实际交互来捕捉物体的动力学特性。

大家可以对比第一排的仿真环境和第二排的真实环境。一个仅仅用真实数据训练出的策略，在数字世界里表现出的成功率与失败姿态，与物理真实世界实现了极其惊人的线性相关性。

于是我们真正将这个数字引擎用于模型评估。在这里，我们评估了一系列当下最流行的策略算法，以及轻量级的 VLA模型，并跨越了多个不同的 Checkpoints。你可以看到，在许多不同的任务中，我们的数字仿真环境在成功率预测上，与真实环境实现了高度线性的相关。

但这里我必须严肃强调：任何做“模型评估”的研究，都必须对测试协议怀有敬畏之心。我们借鉴了丰田研究院（TRI）的严苛标准：我们必须极其严格地控制并理解训练和评估时的数据分布，以此来确保在不同模型间进行的是完全公平的比较。

在我的实验室，我甚至定下一条铁律：学生在真机评估时，必须向我展示初始状态的半透明叠影，我直接对他们说，如果不给我看这个叠加图，我就完全不相信你们的测试结果。

为了确保所有的初始状态在不同策略间、尤其是在真实环境与数字仿真环境间绝对一致，每次我们在真机上摆放测试物体时，都会像左图那样使用半透明叠加轮廓。学生必须将实物严丝合缝地对齐在轮廓内，确保初始配置的一致性。

凭借这种严谨，我们可以在同一个策略架构内筛选出最佳的Checkpoint，如这个折线图所示，仿真引擎测出的成功率（数字图）与真机成功率完美对齐。有趣的是，有时候表现最好的Checkpoint 未必是你训练到最后的那一个，反而往往出现在训练的中期。

最近，我也联合创立了一家初创公司，推进这一理念落地，看看这种数字环境究竟能无限逼近真实世界到什么地步。如视频所示，左边是真实环境，右边是孪生数字环境。这是一个极其复杂的操作任务，最终机器人必须将这两个齿轮插入一个公差非常小的孔位中。大家在这里看到的是一个完全“只用纯仿真数据”训练出来的策略模型，但它的真机行为表现，与数字环境中的推演依然保持了极高的相关性。

我们可以利用这个数字孪生引擎源源不断地生成海量训练数据。由这些数据训练出的模型策略，能够直接部署在真实环境中，不间断且非常可靠地工作。这有力地证明了，由底层物理规则驱动的结构化世界模型，完全有能力捕捉现实中物理交互的细微偏差与复杂性，从而帮我们训练出足以真机落地的鲁棒策略。

这里是柔性线缆的插拔操作的演示。你不仅能看到两者在渲染外观上匹配得极其逼真，甚至在操作过程中，系统也完美重现了线缆由于受力不均所表现出的各种异质物理形变。我们在展览厅的 72 号展位与 Analog Devices联合进行现场实机演示。如果大家感兴趣，非常欢迎过去围观。

纯AI构造的世界模拟器：零真实数据实现真机落地

刚才是偏向“物理先验”的路径，接着，我们把目光投向光谱的另一端，即“拥抱数据、相信大力出奇迹”的纯基于学习的方向。由此，我们开发了一项名为“交互式世界模拟器”的工作。

这是一个物理交互语境下的、基于动作条件的视频生成/预测模型，也是该领域首个真正让我感觉突破的成果。它证明了纯AI的视频预测模型完全能胜任长周期的、包含高度非平庸的柔性物体交互任务。

各位现在屏幕上看到的这些操作画面，完完全全是纯 AI 生成的视频，这里没有任何一台真实的机器人在参与。

它不仅能以 15 帧/秒的速率，生成了超过 10 分钟的动作条件预测视频，它不仅能推演刚体与柔性体的交织互动，甚至还能实时响应。我的学生在这边操控着遥操作手柄，马上就能在那个平行宇宙里的AI模拟器中瞬间渲染出对应的物理反馈。这套系统同样适用于推T型、抓杯子以及多物体交互等复杂操作。

我想重点强调几个极其炸裂的技术细节：

第一，你可以看到视频预测模型完全理解了夹爪与绳索之间的物理拓扑约束。它具备真实的 3D深度理解能力，知道这根绳子是在夹子的上方，还是已经被塞进了夹子内部；

第二，模型精准地捕捉了夹爪与马克杯之间细微的接触交互。当你张开夹爪、闭合夹爪，或者是去推杯子的边缘、推杯子的把手时，模型都会相应地预测出杯子不同的旋转轨迹；

第三，你甚至能在这个纯AI生成的视频里，把杯子从 3D空间中举起来，放在高处的盘子上。系统确保了不同摄像机视角在三维空间中的绝对一致性。

我们已经将这项工作开源，最近它也刚被顶会 RSS 接收。如果你访问我们的官方主页，可以找到并亲自上手体验这些交互式 Demo。

那么，这个“极其逼真的幻觉世界”到底有什么用？正如我开篇所述，这依然服务于我们的核心愿景：一是策略训练，二是策略评估。

我们在训练时，没有采集哪怕一条真实的物理世界数据，所有数据全都是在这个世界模拟器里生成的虚拟轨迹。然而令人吃惊的是，靠纯虚构数据喂出来的策略模型，居然可以在复杂的“绳索布线”、“杂物清扫”中实现现实世界零样本落地。即使画面里有外人不断伸手去干扰机器人，机器人的表现依然坚如磐石。这种表现同样适用于抓取马克杯、扫除杂物以及井字棋任务。

这就引出了一个终极问题：多少条虚拟数据，才能抵得上一条真实的数据？为了回答这个问题，我们做了一项消融实验，从 100%虚拟到 100% 真实，不断调节训练集里虚实数据的配比。

我们横向评测了当今最能打的几套策略算法：Diffusion Policy、ACT以及Pi0模型。甚至最新的大模型架构\pi_0。得出的结论非常震撼：所有模型的表现都保持了跨度极高的一致性。而且这种规律在不同任务间完美迁移。

我可以大胆放言：在我们的世界模拟器中生成的一条虚拟轨迹数据，在训练价值上，几乎 100%等效于你在真机上辛苦采集的一条真实数据。

我们也会拿这个世界模型来做策略评估。大家现在看到的是仅用真实数据训练好的策略，我们将它同时部署在上面这排的虚拟世界模拟器中，和下面这排的真实物理空间中。两条轨迹几乎完美同步；如果在底层做定量的误差评估，它们的数值对齐程度也非常高。

我顺带提个有趣的插曲：几个拿着Y Combinator投资的年轻创业者，直接拿我们开源的模型去搞商业化融资。我去看了眼他们宣发的BP博客，心想：“好家伙，这图看着可真眼熟啊！”

总之，这完美印证了我的核心观点：结合了结构的“结构化世界模型”，完全可以作为一种无限可扩展的数据引擎，扛起大规模机器人模型训练与验证的重任。我们完全可以把这些数据的价值榨干：通过它们训练出极度丰富的世界模型，再用世界模型反哺数据的生成。

最后，我想向我所有的合作者致以最深切的感谢。没有他们，完成这些庞大的工程系统简直是天方夜谭，尤其是我的学生们，他们承担了我刚才所展示工作里几乎所有最繁重的开发和推演。我还要感谢我实验室的赞助商们，他们常常提供非常敏锐的行业需求视角，启发了我们今天的很多研究方向。

这就是我演讲的全部内容，我非常乐意回答大家的提问。谢谢大家！

Q&A 问答环节

听众A：这种基于图的神经模拟器，在底层算力上会不会有瓶颈？如果是极其动态的高速操作，还能扩展吗？

李昀烛：这是一个非常好的问题。图本质上是对物理环境的一种降维抽象。你可以自由调节参与计算的节点或粒子数量，算力紧张时，你可以把它当成稀疏的“关键点”来算。

所以，这本质上是一个在“算力”与“精度”如何平衡的问题。你可以动态调整这个参数，从而在计算效率和仿真效果之间找到最佳折中点。你需要找到那个最精简、却又能刚好兜住下游任务所需物理信息的平衡点。

听众B：您能详细讲讲 3D 高斯溅射与基于图的表征在您系统里的关系吗？另外，在评估时到底要给算法喂多少演示数据才算公平？由于不同算法需要的演示形态不一样，您怎么定义泛化能力的基准呢？

李昀烛：这是一个非常内行的提问，我必须要澄清：在我们的架构里，高斯点仅仅负责环境的光影和外观渲染。而涉及系统最核心的物理底层，也就是我们说的实际动力学建模，我们完全使用的是图节点和粒子网络。

以面团的仿真为例，我们用基于图的神经动力学模型来算面团的变形，并在图的网络结构上套上密集弹簧质点约束来控制它的物理拉伸。这意味着，在我们的架构里，动力学建模引擎与视觉渲染引擎本质上是相互解耦的：高斯管渲染，Graph管物理。两者在解耦的同时，通过图形学里经典的“线性混合蒙皮”技术绑定在一起。

关于评估的严谨性，我们在实证数据上极其苛刻，如我幻灯片所示，我们硬性规定了极其严苛的同一套初始构型。在对比时，对于每种算法策略的每一个Checkpoint，我们雷打不动地在真实环境里跑 20 次实测，在数字环境里也跑 20次。虽然在数字环境里我们一键就能跑一万次，但为了绝对的侧边比对（Side-by-side），我们取 20对 20。

我幻灯片上那密密麻麻的散点图，每一个点背后都是学生在台子上一丝不苟摆放 20次换来的真金白银的数据。你可以数数我学生为了出这几张图到底肝了多久，这绝对是苦力活。至于训练阶段，我们就采用行业通行的标准做法，也就是喂给策略大概 50到 200 条演示数据。

听众C：您的模型泛化能力如何？比如，如果现在换一个形状完全不同的小孩玩具，或者换一条材质完全不同的绳子，您的模型还能直接泛化吗？它是能直接泛化，还是说我要重头为它训练一个新模型？

李昀烛：这是个极其直击痛点的问题！因为我们现在的数字孪生是通过“现实到仿真（Real-to-Sim）”的管线为眼前这个“特定物体”量身定制的，所以它并不能零样本直接迁移到新物体上。好在现在的极简流程，只需要几分钟就能构建出一个新数字孪生体。

3D 还是 2D？哥大李昀烛：通用机器人基础模型的解药在“中间地带” | ICRA 2026

但是我们的星辰大海不止于此，我们正在全力攻坚的一项工作，就是从这批已经被辨识出的各种物体中，“蒸馏”出一个更高维度的通用神经动力学模型。我们的终极愿景是：只用这一个通用模型，就能自然而然地泛化到所有奇形怪状的未知可变形物体上。

听众D：我非常震撼于您能把偏向 2D数据驱动的视频生成和偏向 3D 物理先验驱动的结构化重建完美结合。我知道您的学术背景很偏向 CV，都在狂堆 2D 端到端模型，甚至有人喊出“3D 路线已死”，站在您的视角，您对未来的技术版图有什么样的愿景？这两条路线最终将以何种形态融合？

李昀烛：这是一个非常宏大的问题，如果私下聊，这个话题我们能激辩几个小时，但我长话短说以表立场：我是 3D技术死心塌地的信徒。

只要有一丝可能让系统跑在 3D 空间里，我就会不惜一切代价往三维靠拢。哪怕是我在做“生成式视频预测”这项工作时，我的底线也是必须做“多摄像机视角的联合推演”。也就是说，即使是跑 2D 的视频大模型，它的大脑里也必须含有一定程度的三维空间理解能力。

从长远来看，我绝对承认纯数据驱动路线那可怕的潜力——只要算力不断，但至少现在，它的泛化性、多视角的物理一致性，还差得太远。

反过来看另一端的纯物理引擎呢？逻辑虽然绝对严密，但它苛求完整的环境状态信息，这种理想条件在自然场景里根本不现实。正因为看到了两者的极限，我才一直死磕这个问题：我到底能在光谱两端的中间地带找到什么？

我坚信，最终能改变世界的那个大模型，一定会坐落在 3D 物理结构与 2D海量数据的交汇处。我们要寻找的是那把最精简的“物理先验”钥匙，并让它在无尽的真实数据浪潮中自我进化。这，才是通向通用机器人时代的终极配方。

谢谢大家！

0人收藏

专题

ICRA 国际机器人与自动化会议

本专题其他文章

吴思梦

编辑

发私信

当月热门文章