物理AI的船票，藏在世界模型里

本文作者：田哲

2026-06-24 22:05

导语：物理AI的核心是“数据scaling和商业scaling，二者形成正向反馈”。而目前唯一同时实现这两者的，正是自动驾驶。

物理AI的核心是“数据scaling和商业scaling，二者形成正向反馈”。而目前唯一同时实现这两者的，正是自动驾驶。

作者 | 黄华丹

编辑 | 田哲

1943年，苏格兰心理学家肯尼斯·克雷克（Kenneth Craik）在他的著作《解释的本质》中，提出了一个影响深远的论断——人类大脑在认知外部世界时，并非被动地接收信息，而是会主动构建一个“现实的内部小模型”。借助这个“小模型”，我们可以在脑海中模拟不同行动的结果，从而在真实世界出手之前，先安全地推演一遍未来。

这个洞见，后来被认知科学家发展为“心理模型”理论，再后来，它成为人工智能领域一个绵延半个多世纪的执念：能不能让机器也拥有这样一个“内部模型”？让它们在执行任务之前，先在自己的“想象”中预演世界的变化？

80多年后的今天，这个执念终于从哲学式的思辨和认知科学的假设，变成了AI领域最拥挤的一条赛道——世界模型（World Model）。

英伟达将物理AI定义为继生成式AI之后的下一波浪潮；特斯拉将自动驾驶、Robotaxi、人形机器人和世界模型统一在同一AI体系下；图灵奖得主Yann LeCun离开Meta创办AMI Labs，3月完成10.3亿美元种子轮押注世界模型；李飞飞的World Labs融资10亿美元；OpenAI重组建机器人团队。

几乎所有的头部车企和自动驾驶公司，也都在同一时间涌向了同一条技术轨道——从华为到蔚来，从小鹏到理想，从吉利到比亚迪，世界模型正以前所未有的速度从学术概念变成量产标配。

科技巨头和顶尖科学家们正在争夺同一个制高点：让AI真正理解物理世界的运行规律。

PART 1

物理AI为什么需要自己的“基座模型”？

我们先要厘清物理AI与数字AI的本质差异。

ChatGPT的突破，本质上是让机器掌握了语言符号的统计关联——给定上文，预测下一个词。这套机制压缩了人类海量文本知识，使模型表现出常识、逻辑甚至幽默感。

但语言模型再强，也无法内化真实的物理因果。一个只读过无数文档的AI，知道“物体受重力会下落”这个句子，但它无法预判一个不规则物体在倾斜平面上滚动时的速度变化，也无法感知不同材质接触面的摩擦力对运动轨迹的影响。

所以，AI要进入物理世界，至少需要具备三种底层能力：理解三维空间结构、预测环境变化、在真实场景中执行可靠动作。

这三种能力分别对应三条技术路径：空间智能、世界模型和具身智能。

李飞飞强调，AI下一阶段必须理解三维空间。一个机器人要抓取桌面上的杯子，不仅要识别杯子，还要计算杯子与桌面、手臂、障碍物的相对位置和姿态。这是空间智能的核心。

Yann LeCun则提出，智能体不能仅依赖即时感知，必须拥有内在的“世界模拟器”，能够推演不同行动导致的未来状态。换言之，在真实出手之前，先在“脑内”推演多种可能。

具身智能则强调通过物理身体与环境交互，利用视觉、触觉、力反馈等多模态信号，在试错中学习真实世界的反馈机制。

三条线路各有内在逻辑，但为什么世界模型能够被反复讨论？

世界模型的核心是——把物理世界的运行规律压缩进模型参数，让AI具备对空间、运动、因果关系的“常识性”理解。

如Momenta CEO曹旭东所言：“预测是智能进化的基石。大语言模型依托下一词元预测能力压缩数字世界常识；而世界模型则通过预测物理世界未来的状态和交互逻辑，获得理解物体的物理属性、运动的因果关系、交互的潜在可能。”

从这个意义上看，世界模型之于物理AI，就像GPT之于数字AI——它是底层的基座。

因此，在2026年的L2+和L4级别的智驾行业里，世界模型已从一个技术选项变成了几乎所有头部玩家的必答题。

华为是最早旗帜鲜明押注世界模型路线的主流玩家之一。蔚来同样在2024年发布了“蔚来世界模型NWM”首个版本。2026年6月18日，蔚来向超70万用户推送世界模型全新版本。理想在CVPR 2026上有12篇论文入选，其中4篇聚焦世界模型，从深度估计、三维重建、交通规则认知到安全风险预判形成完整技术链路。比亚迪也将智驾模型切换至世界模型路线，推出“物理AI大模型”。

从这些企业的动作中可以看到，一个共识已经形成——世界模型是通往高阶自动驾驶乃至物理AI的必经之路。

PART 2

R7世界模型：

三层架构如何让AI“懂物理”？

如上文所言，AI进入物理世界所需的三大支柱：空间感知、时序预测、行动控制，而自动驾驶恰好是三者交汇最为密集的现实场景。

一辆车在开放道路行驶，除了识别障碍物，还要预判邻车切入意图、行人横穿概率、路面附着系数变化。它需要空间理解、世界预测和实时决策，三者缺一不可。

更关键的是，自动驾驶已经具备物理AI其他场景尚不具备的规模化基础——每天数百万辆量产车在真实道路产生海量交互数据，且存在明确的商业付费闭环。

曹旭东的判断是：自动驾驶是物理AI的序章，“因为它最先实现了规模化的数据闭环和商业闭环”。

2026年4月，Momenta在北京车展发布R7世界模型，并实现量产首发。这是国内首个将世界模型、强化学习和端到端架构深度融合并投入量产的方案。

R7的核心是一套三层递进架构。

第一层：世界模型预训练——构建物理常识基底

Momenta基于超过120亿公里的实车行驶里程，从中筛选出超1亿段高价值“黄金数据”，涵盖各类天气、光照、道路结构和动态交互场景。这些数据经过清洗、标注和时空对齐，用于预训练世界模型的基础网络。模型通过预测下一帧或未来多帧的传感器状态，逐步压缩物理世界的时空演化规律。

这一层的核心壁垒在于数据规模。搭载Momenta系统的量产车辆已超过90万台，累计交付超100款车型。120亿公里的真实数据，是绝大多数竞争对手无法复制的数据底盘。

第二层：世界模型仿真——低成本复现长尾场景

系统利用生成式模型推演周围环境的演变，对极端罕见的长尾场景（如路面散落物、前车急刹、非标障碍物等）进行闭环仿真测试。与传统基于游戏引擎的仿真不同，Momenta的仿真世界参数直接学习自真实数据，因此“明确知道仿真与真实世界之间的差距有多大、差在哪”，并以此作为模型迭代的量化基准。

这种“数据驱动仿真”的效率比实车路测高出数个数量级，且能自动生成数以万计的变体场景，覆盖现实中难以穷举的边缘情况。

第三层：在世界模型中做强化学习——自主探索最优策略

在仿真环境中，系统通过设定安全、舒适、效率等多维奖励函数，让模型以自我博弈方式反复试错。经过数千万次虚拟交互，模型逐渐习得比人类预置规则更优的驾驶策略，尤其是在复杂博弈场景（如无保护左转、拥堵汇流）中表现出超越模仿学习的决策能力。

过去，量产车是交付终点，Robotaxi是独立业务，仿真和强化学习是研发工具。但在Momenta的体系里，它们都围绕同一个模型进化闭环运转——量产车产生的真实场景进入世界模型预训练，仿真环境生成极端案例用于强化学习，优化后的模型再部署回量产车和Robotaxi中验证，形成“数据→模型→场景”的正向循环。

Momenta的All-in-One Platform是这一逻辑的产品化体现：用统一的物理AI大模型、世界模型能力和数据闭环，将乘用车、Robotaxi、Robovan、Robotruck等不同场景的数据和经验汇入同一技术底座。这种平台化布局不仅降低了边际成本，也构建出多场景协同的商业生态。

从2022年首个10万台量产耗时24个月，到如今最快不到40天完成10万台交付——“飞轮效应”正从概念转化为可量化的效率提升。

PART 3

物理AI基模的竞争

本质是规模效应的竞争

技术只是故事的一面。物理AI基座模型的竞争，本质上是规模效应的竞争。

6月23日，Momenta在港交所已通过港交所聆讯，正式进入IPO冲刺阶段。市场份额方面，2025年3月至2026年2月，Momenta以65%的销量市占率位居中国第三方城市NOA供应商首位。城市NOA正处于爆发临界点，预计到2030年城市 NOA 解决方案渗透率将从2025年的11%升至62%。

研发投入上，2025年Momenta研发支出达18.69亿元，占营收77.5%，近三年累计研发投入46.6亿元。截至2025年底，研发人员1157名，占比近82%，超三分之二拥有硕士及以上学历。现金储备超100亿元。

这些数字表明，Momenta不仅在做技术投入，也已形成自我造血能力。在R7的技术飞轮之外，Momenta正在搭建自己的商业飞轮。

Momenta的商业模式中，有一个关键的规模化逻辑：每一款车型定点，都是一条未来的收入管道；每一辆量产车的交付，都是一次收入的确认。

Momenta已与全球24家整车厂建立合作关系，客户覆盖国内全部主流乘用车企，全球排名前10大车企中已有9家与其合作。累计定点车型数超过210款，已成功交付超100款量产车型，搭载Momenta系统的量产车辆规模已超90万台。

在收入结构上，这种规模化效应同样清晰可辨。

Momenta的收入由两部分构成：技术开发收入和许可收入。前者是“上车前”的收入——车企给出定点后，Momenta将智驾方案适配到具体车型，完成开发、测试和系统集成；后者是“上车后”的收入——车型正式量产后，Momenta按每辆搭载系统的车辆收取许可费。

2023年，Momenta几乎还靠技术开发支撑收入，到了2025年，许可收入飙升至9.68亿元，三年增长42倍，占比跃升至40.1%。

这组数据的逻辑链条很清晰：前期技术开发是固定成本投入，一旦方案完成、车型进入量产，后续的许可收入边际成本极低，每一辆新增量产车带来的几乎都是纯利润。定点车型越多，量产规模越大，许可收入的雪球就滚得越快。而许可收入占比的提升，让Momenta在保持高研发投入的同时，逐步逼近盈利拐点。

这便是Momenta商业规模化闭环的核心：定点带来量产，量产带来收入，收入支撑研发，研发反哺模型，模型又帮助拿下更多定点。 120亿公里的真实道路数据、超210款车型定点、65%的第三方城市NOA市占率——这些数字不是孤立的，它们共同构成一个不断加速的正向循环。

这不仅是数据的规模化，更是商业的规模化。当数据和商业两条曲线同时上扬，物理AI基座模型的飞轮才算真正转了起来。

总结来看，Momenta的选择在这场路线之争中显得尤为清晰：它不依赖语言模型作为中介，而是让AI直接学习物理世界的规律本身。在曹旭东看来，“世界模型让AI从理解语言走向理解物理世界，这是通往更高级别自动驾驶的必经之路”。

而Momenta的差异化在于：它不仅选择了世界模型路线，而且已经实现了量产级落地。

目前，全球排名前十的车企中已有9家与Momenta推进智驾技术落地，其方案已在亚洲、欧洲、大洋洲、拉美和北非的等超10个国家和地区实现部署。Momenta的股东阵容包含上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等7家全球车企——这些车企本身就是世界模型浪潮的重要推动者，而它们选择与Momenta合作，本身也构成了一种行业背书。

这些产业合作的意义不止于收入——每一辆搭载Momenta系统的量产车，都是世界模型的数据采集终端。在物理AI时代，数据规模本身就是最深的护城河。

当然，物理AI远未到尘埃落定的时刻。世界模型能否从学术概念转化为真实世界的底层能力，自动驾驶能否成为物理AI最先跑通的训练场，都还需要时间验证。但Momenta正在证明一件事：在物理AI这场长跑中，它已占据一个关键身位。

这个身位的核心竞争壁垒，不在于某一项算法指标的领先，而在于一套已经跑通的数据和商业规模化闭环。120亿公里实车数据、90多万台量产车、65%的第三方城市NOA市占率、R7世界模型三层架构——这些要素共同构成了物理AI基座模型的雏形。

物理AI的核心是“数据scaling和商业scaling，二者形成正向反馈”。而目前唯一同时实现这两者的，是自动驾驶。对Momenta而言，真正的命题是：自动驾驶这条已具备规模化条件的路径，能否训练出物理AI时代的基座模型。

答案还在路上。但至少，Momenta已经率先出发。

雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

田哲

编辑

关注自动驾驶汽车及其产业发展，微信号“tz--hh”

发私信

当月热门文章