世界模型首次进入行动决策闭环，星源智ω-EVA具身交互世界模型落地

本文作者：齐铖湧

2026-06-14 15:31

导语：模型学会"三思而后行"

6月13日，雷峰网(公众号：雷峰网)在北京智源大会现场见到一个场景，一台机械臂面对一块被观众随机打乱的华容道棋盘，陷入了"沉思"。它没有立即动手，而是在潜在空间中预演了每一步滑块移动可能带来的连锁反应——如果先移这块，后续路径是否会被堵死？

如果换一条路线，能否为曹操的出逃留出通道？几秒钟后，机械臂开始落子，每一步都伴随着对下一步棋局的重新推演，直至棋局复原。

这不是一场简单的逻辑编程演示，而是星源智发布的全球首个具身交互世界模型ω-EVA（Omega-EVA）的首次公开亮相。

世界模型首次进入行动决策闭环，星源智ω-EVA具身交互世界模型落地

在具身智能赛道普遍追逐"让机器人动起来"的当下，星源智试图回答一个更本质的问题：机器人能否在行动之前，先理解自己的动作将带来什么后果？

从VLA到世界模型：具身智能的"开环"困境

过去两年，具身智能领域最热门的技术路线是VLA（Vision-Language-Action，视觉-语言-动作模型）。这类模型让机器人能够"看懂"指令并生成动作，本质上是一种高级的模仿学习。但VLA有一个天然的结构性缺陷：它是开环的。模型根据当前观察直接输出动作，一旦执行，便无法在执行前预判这个动作会不会导致碰撞、失衡或任务失败。

世界模型首次进入行动决策闭环，星源智ω-EVA具身交互世界模型落地

"VLA就是单纯的模仿学习，要训出比较好的模型需要的数据质量要很高，需要都是成功的数据。"星源智联合创始人、智源研究院具身交互世界模型实验室负责人孙振国在专访中坦言。更关键的是，VLA模型生成的动作与对未来的预测之间没有形成闭环——它不会想"如果我这样抓，杯子会不会滑脱"。

这正是世界模型被引入具身智能的核心原因。世界模型（World Model）原本是一个更宽泛的概念，从视频生成到3D空间重建，各路玩家都在冠以"世界模型"之名。但在星源智的定义中，面向机器人的世界模型必须收敛到一个具体目标：理解物理世界的动态变化，并预测"如果我执行某个动作，世界将如何响应"。

"机器人面对的是一个连续变化的物理世界，物体会移动，接触会改变，环境状态也会因为机器人的动作而持续演化。"孙振国在演讲中指出。如果机器人不能在行动前完成一次"后果预演"，那么它面对真实世界的复杂任务时，成功率将始终停留在实验室内。

ω-EVA的三重门：Envision、Verify、Act

ω-EVA的命名本身即揭示了其技术逻辑：Envision（预演）、Verify（验证）、Act（行动）。这不是三个独立的模块，而是一个完整的控制闭环。

世界模型首次进入行动决策闭环，星源智ω-EVA具身交互世界模型落地

在传统的世界模型路线中，模型往往只负责"预测未来"——给定当前状态，生成未来的视频或隐空间特征。但预测本身并不直接修正动作。星源智的创新在于，他们设计了一个"交互"接口，让策略模型（Policy）和世界模型在单次决策循环内实时对话。

具体而言，ω-EVA采用三阶段训练架构：

第一阶段是Action-conditioned Latent World Model（动作条件化的隐空间世界模型）。模型接收当前视觉特征和候选动作片段，预测该动作将诱导出的未来视觉特征。这里的关键在于"动作条件化"——模型必须学会"因为做了这个动作，所以场景这样变化"，而非泛泛地预测未来。这迫使模型关注与动力学直接相关的区域：末端执行器、被操作物体、接触区域。

第二阶段是World-aware Action Generator（世界感知动作生成器）。基于第一阶段形成的动力学感知表征，系统生成初始动作提案（Action Proposal）。这个动作已经蕴含了对物理规律的理解，但仍是"第一稿"。

第三阶段是Imagined-interaction Action Refiner（想象交互动作修正器）。这是ω-EVA最具原创性的设计。系统将第二阶段生成的动作提案重新送回第一阶段冻结的世界模型，得到该提案诱导出的隐空间后果（Latent Consequence）。随后，修正器联合"当前状态+想象后果+原始提案"，直接重写输出最终动作片段。

"未来不是生成给人看的，而是反馈给动作生成过程的。"孙振国强调。这意味着ω-EVA中的Verify不是传统意义上的外部打分，而是一种后果感知的动作重写。机器人不是在执行后判断对错，而是在执行前让候选动作接受一次世界模型的"压力测试"。

实验数据验证了这一闭环的价值。在LIBERO、LIBERO-PLUS和RoboTwin 2.0三个仿真基准上，ω-EVA在仅依赖任务特定数据、无额外预训练的情况下，达到了SOTA水平。其中在LIBERO上平均成功率达98.6%，在RoboTwin上经过修正器后将成功率从88.9%提升至90.3%。值得注意的是，这一成绩是在仅1.2B参数规模下取得的。

为什么不做"视频生成"？一场关于路线与成本的豪赌

当前世界模型领域存在几条鲜明的技术路线：以视频生成为底座的路线（如Motus、DreamZero）、面向表征学习的隐空间预测路线（如LeCun的JEPA/VLA-JEPA）、以及将世界模型作为数据生成器的路线。星源智选择了隐空间预测，但更进一步将其拉入动作闭环。

在专访中，孙振国明确解释了为何不选择视频生成路线："以语言为条件的视频生成模型在具身领域最大的瓶颈，是不能做很好的动作和预测视频的对齐。"视频生成追求像素保真度，而动作生成追求物理可行性，两者的优化目标在损失函数层面"本质上是打架的"。如果给视频生成loss更高权重，动作质量就会受损；反之亦然。

更重要的是工程化落地的现实。视频生成模型即便在桌面级GPU上运行，目前技术极限也仅能保证约7赫兹的推理频率，且模型参数量巨大，无法在机器人端侧实时部署。"如果机器人作为一个Agent来看的话，必然是要做闭环的事情，不能是拿到反馈几秒后的事情，这是非常危险的。"孙振国指出，"基于这个前提，我们坚定地认为模型需要在端侧，而且要以相对高的推理频率运行。"

ω-EVA的解决方案是将所有后果推理压缩在隐空间（Latent Space）完成，不解码为像素级视频。这使得1.2B参数的模型能够在端侧算力平台上以高帧率运行。正如星源智创始人&CEO刘东所言："所有感知决策的结果必须在端侧运行，快速看到数据，模型推理完了至少要以10赫兹的执行频率去执行。"

这一选择还带来了数据效率的优势。VLA依赖高质量成功数据，数据利用率极低（工作8小时可能仅产出3小时有效数据）。而世界模型可以利用失败轨迹进行训练，数据利用率可提升至6-7小时。"对于世界模型来说，哪怕是最终失败的这些轨迹也是可以利用起来的。"孙振国表示。在具身领域数据瓶颈极为突出的当下，这直接降低了数据采集成本。

端侧算力与产品矩阵：让大脑"装进"机器人

模型再先进，若无法嵌入机器人本体，便只是实验室的玩具。星源智的另一重壁垒在于端侧算力平台的工程化能力。

公司围绕端侧智能构建了完整的具身大脑算力产品体系：面向高性能本体部署的N5、面向量产机器人与多类本体适配的T5，以及面向灵活扩展的算力背包。其中T5已搭载于智元精灵G2机器人，内置NVIDIA Jetson Thor处理器，算力达2070 TFLOPS，支持大型Transformer模型加速。

"我们模型本身开发的时候就是面向具身在端侧能够独立部署，能够快速跑行的模型架构设计的。"刘东在回应端侧部署质疑时强调。这意味着星源智从模型架构设计之初就考虑了算力约束，而非先训练一个大模型再想办法压缩。

在产品层面，星源智形成了"具身大脑+场景解决方案"的矩阵。RoboBrain Pro作为核心大脑，搭配NavBrain导航系统，已落地于多个场景：具身叉车（解决物流场景卡车形态各异、货物不统一的柔性卸货问题）、机器狗清洁官（开放环境下的垃圾识别与捡拾）、流水线智能分拣（动态目标识别与连续流程判断），以及咖啡服务等精细操作场景。

"卖铲子"的商业模式：为什么不做本体？

在具身智能赛道，一个尖锐的问题是：做大脑的公司，会不会被做本体的公司抛弃？特别是当头部本体公司纷纷宣称要自研"全栈"时。

刘东对此有清醒的判断："现在市面上整个做具身的公司其实有接近两百家，按照正常的商业逻辑，在真正的销量没有起来之前是没有办法支撑一个公司做全栈研发投入的，除非是你已经大到像特斯拉这种规模。"

星源智选择了一条类似自动驾驶领域Momenta或华为的道路：专注具身大脑，与本体厂商合作。公司覆盖70%以上的头部本体客户，合作形式灵活——既有一整套"模型+算力平台+传感器"的交钥匙方案，也有仅提供三维空间识别、导航或基础算力的模块化服务。

这种分工在叉车案例中体现得尤为明显。传统叉车自动化依赖基于规则的GVE方案，面对形态各异的卡车和货物时泛化能力极差。星源智将世界模型策略用于具身叉车后，机器人能够泛化识别各种情形，自主规划卸货逻辑，避免碰撞和遗漏。"从各种叉车类的公司来说，他们想升级到整个具身智能的算法瓶颈还是比较高的。"刘东指出，"从具身公司的角度，他们想切入这个场景是需要很深的行业Knowhow和行业数据的。"

星源智的角色，用刘东的话说，是"这个行业卖铲子的人"。每家本体公司要造几千台机器人进行数据采集，几十家本体公司便构成了庞大的算力与模型需求市场。而星源智通过提供大脑模型和端侧Infra，成为产业链中不可或缺的赋能方。

具身智能的"2015时刻"：世界模型的下一站

如果把具身智能与自动驾驶类比，刘东认为行业当前处于"2015、2016年刚刚起步的状态"——大家瞄着L4、L5去做，但真正的L2落地还不多。这意味着赛道仍处于早期，但结构化场景已经具备落地条件。

对于世界模型的技术路线，孙振国将其分为四类：视频生成增强策略、隐空间表征学习、数据生成器，以及星源智提出的"交互式世界模型"。他判断，未来世界模型必将收敛到与物理世界实时交互的范式上，因为"如果只是把世界模型作为训练辅助，去约束表征空间，它只是发挥了世界模型很小的一部分"。

更具前瞻性的方向是"自进化"。世界模型天然适合终身学习：执行动作后获得真实反馈，与预测对比并修正偏差，模型便可"越用越好"。孙振国透露，团队此前在《Nature Machine Intelligence》上发表过相关研究，目前智源研究院仍有持续项目推进这一方向。

在数据安全与商业壁垒方面，星源智采取"一事一议"的数据合作模式，部分场景数据充分共享，部分客户数据归客户所有，公司仅提供基础模型。同时接受国家数据局指导，在数据流转和训练环节进行脱敏处理。

结语

当行业还在争论世界模型应该生成多长的视频、需要多大的算力时，星源智用ω-EVA给出了一个更务实的答案：世界模型不该只用来"看未来"，而应该用来"改动作"。

从华容道棋盘上的一步三思，到叉车面对未知卡车时的自主规划，ω-EVA试图证明的不仅是技术路线的先进性，更是具身智能商业化的可行性。在1.2B参数的轻量架构中塞进一个"预演-验证-行动"的闭环，这既是工程能力的体现，也是对机器人本质的回归——智能不仅是感知与生成，更是在行动之前，对后果的敬畏与修正。

具身智能的竞赛，正从"谁能生成更酷的视频"转向"谁能让机器人在真实世界里少犯一次错"。星源智的赌注是：后者才是产业落地的真正起点。（雷峰网）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

齐铖湧

编辑

发私信

当月热门文章