0
| 本文作者: 田哲 | 2026-06-24 22:05 |

物理AI的核心是“数据scaling和商业scaling,二者形成正向反馈”。而目前唯一同时实现这两者的,正是自动驾驶。
1943年,苏格兰心理学家肯尼斯·克雷克(Kenneth Craik)在他的著作《解释的本质》中,提出了一个影响深远的论断——人类大脑在认知外部世界时,并非被动地接收信息,而是会主动构建一个“现实的内部小模型”。借助这个“小模型”,我们可以在脑海中模拟不同行动的结果,从而在真实世界出手之前,先安全地推演一遍未来。
这个洞见,后来被认知科学家发展为“心理模型”理论,再后来,它成为人工智能领域一个绵延半个多世纪的执念:能不能让机器也拥有这样一个“内部模型”?让它们在执行任务之前,先在自己的“想象”中预演世界的变化?
80多年后的今天,这个执念终于从哲学式的思辨和认知科学的假设,变成了AI领域最拥挤的一条赛道——世界模型(World Model)。
英伟达将物理AI定义为继生成式AI之后的下一波浪潮;特斯拉将自动驾驶、Robotaxi、人形机器人和世界模型统一在同一AI体系下;图灵奖得主Yann LeCun离开Meta创办AMI Labs,3月完成10.3亿美元种子轮押注世界模型;李飞飞的World Labs融资10亿美元;OpenAI重组建机器人团队。
几乎所有的头部车企和自动驾驶公司,也都在同一时间涌向了同一条技术轨道——从华为到蔚来,从小鹏到理想,从吉利到比亚迪,世界模型正以前所未有的速度从学术概念变成量产标配。
科技巨头和顶尖科学家们正在争夺同一个制高点:让AI真正理解物理世界的运行规律。
PART 1


我们先要厘清物理AI与数字AI的本质差异。
ChatGPT的突破,本质上是让机器掌握了语言符号的统计关联——给定上文,预测下一个词。这套机制压缩了人类海量文本知识,使模型表现出常识、逻辑甚至幽默感。
但语言模型再强,也无法内化真实的物理因果。一个只读过无数文档的AI,知道“物体受重力会下落”这个句子,但它无法预判一个不规则物体在倾斜平面上滚动时的速度变化,也无法感知不同材质接触面的摩擦力对运动轨迹的影响。
所以,AI要进入物理世界,至少需要具备三种底层能力:理解三维空间结构、预测环境变化、在真实场景中执行可靠动作。
这三种能力分别对应三条技术路径:空间智能、世界模型和具身智能。
李飞飞强调,AI下一阶段必须理解三维空间。一个机器人要抓取桌面上的杯子,不仅要识别杯子,还要计算杯子与桌面、手臂、障碍物的相对位置和姿态。这是空间智能的核心。
Yann LeCun则提出,智能体不能仅依赖即时感知,必须拥有内在的“世界模拟器”,能够推演不同行动导致的未来状态。换言之,在真实出手之前,先在“脑内”推演多种可能。
具身智能则强调通过物理身体与环境交互,利用视觉、触觉、力反馈等多模态信号,在试错中学习真实世界的反馈机制。
三条线路各有内在逻辑,但为什么世界模型能够被反复讨论?
世界模型的核心是——把物理世界的运行规律压缩进模型参数,让AI具备对空间、运动、因果关系的“常识性”理解。
如Momenta CEO曹旭东所言:“预测是智能进化的基石。大语言模型依托下一词元预测能力压缩数字世界常识;而世界模型则通过预测物理世界未来的状态和交互逻辑,获得理解物体的物理属性、运动的因果关系、交互的潜在可能。”
从这个意义上看,世界模型之于物理AI,就像GPT之于数字AI——它是底层的基座。
因此,在2026年的L2+和L4级别的智驾行业里,世界模型已从一个技术选项变成了几乎所有头部玩家的必答题。
华为是最早旗帜鲜明押注世界模型路线的主流玩家之一。蔚来同样在2024年发布了“蔚来世界模型NWM”首个版本。2026年6月18日,蔚来向超70万用户推送世界模型全新版本。理想在CVPR 2026上有12篇论文入选,其中4篇聚焦世界模型,从深度估计、三维重建、交通规则认知到安全风险预判形成完整技术链路。比亚迪也将智驾模型切换至世界模型路线,推出“物理AI大模型”。
从这些企业的动作中可以看到,一个共识已经形成——世界模型是通往高阶自动驾驶乃至物理AI的必经之路。
PART 2


如上文所言,AI进入物理世界所需的三大支柱:空间感知、时序预测、行动控制,而自动驾驶恰好是三者交汇最为密集的现实场景。
一辆车在开放道路行驶,除了识别障碍物,还要预判邻车切入意图、行人横穿概率、路面附着系数变化。它需要空间理解、世界预测和实时决策,三者缺一不可。
更关键的是,自动驾驶已经具备物理AI其他场景尚不具备的规模化基础——每天数百万辆量产车在真实道路产生海量交互数据,且存在明确的商业付费闭环。
曹旭东的判断是:自动驾驶是物理AI的序章,“因为它最先实现了规模化的数据闭环和商业闭环”。
2026年4月,Momenta在北京车展发布R7世界模型,并实现量产首发。这是国内首个将世界模型、强化学习和端到端架构深度融合并投入量产的方案。
R7的核心是一套三层递进架构。

第一层:世界模型预训练——构建物理常识基底
Momenta基于超过120亿公里的实车行驶里程,从中筛选出超1亿段高价值“黄金数据”,涵盖各类天气、光照、道路结构和动态交互场景。这些数据经过清洗、标注和时空对齐,用于预训练世界模型的基础网络。模型通过预测下一帧或未来多帧的传感器状态,逐步压缩物理世界的时空演化规律。
这一层的核心壁垒在于数据规模。搭载Momenta系统的量产车辆已超过90万台,累计交付超100款车型。120亿公里的真实数据,是绝大多数竞争对手无法复制的数据底盘。
第二层:世界模型仿真——低成本复现长尾场景
系统利用生成式模型推演周围环境的演变,对极端罕见的长尾场景(如路面散落物、前车急刹、非标障碍物等)进行闭环仿真测试。与传统基于游戏引擎的仿真不同,Momenta的仿真世界参数直接学习自真实数据,因此“明确知道仿真与真实世界之间的差距有多大、差在哪”,并以此作为模型迭代的量化基准。
这种“数据驱动仿真”的效率比实车路测高出数个数量级,且能自动生成数以万计的变体场景,覆盖现实中难以穷举的边缘情况。
第三层:在世界模型中做强化学习——自主探索最优策略
在仿真环境中,系统通过设定安全、舒适、效率等多维奖励函数,让模型以自我博弈方式反复试错。经过数千万次虚拟交互,模型逐渐习得比人类预置规则更优的驾驶策略,尤其是在复杂博弈场景(如无保护左转、拥堵汇流)中表现出超越模仿学习的决策能力。
过去,量产车是交付终点,Robotaxi是独立业务,仿真和强化学习是研发工具。但在Momenta的体系里,它们都围绕同一个模型进化闭环运转——量产车产生的真实场景进入世界模型预训练,仿真环境生成极端案例用于强化学习,优化后的模型再部署回量产车和Robotaxi中验证,形成“数据→模型→场景”的正向循环。
Momenta的All-in-One Platform是这一逻辑的产品化体现:用统一的物理AI大模型、世界模型能力和数据闭环,将乘用车、Robotaxi、Robovan、Robotruck等不同场景的数据和经验汇入同一技术底座。这种平台化布局不仅降低了边际成本,也构建出多场景协同的商业生态。
从2022年首个10万台量产耗时24个月,到如今最快不到40天完成10万台交付——“飞轮效应”正从概念转化为可量化的效率提升。
PART 3


技术只是故事的一面。物理AI基座模型的竞争,本质上是规模效应的竞争。
6月23日,Momenta在港交所已通过港交所聆讯,正式进入IPO冲刺阶段。市场份额方面,2025年3月至2026年2月,Momenta以65%的销量市占率位居中国第三方城市NOA供应商首位。城市NOA正处于爆发临界点,预计到2030年城市 NOA 解决方案渗透率将从2025年的11%升至62%。
研发投入上,2025年Momenta研发支出达18.69亿元,占营收77.5%,近三年累计研发投入46.6亿元。截至2025年底,研发人员1157名,占比近82%,超三分之二拥有硕士及以上学历。现金储备超100亿元。
这些数字表明,Momenta不仅在做技术投入,也已形成自我造血能力。在R7的技术飞轮之外,Momenta正在搭建自己的商业飞轮。
Momenta的商业模式中,有一个关键的规模化逻辑:每一款车型定点,都是一条未来的收入管道;每一辆量产车的交付,都是一次收入的确认。
Momenta已与全球24家整车厂建立合作关系,客户覆盖国内全部主流乘用车企,全球排名前10大车企中已有9家与其合作。累计定点车型数超过210款,已成功交付超100款量产车型,搭载Momenta系统的量产车辆规模已超90万台。
在收入结构上,这种规模化效应同样清晰可辨。
Momenta的收入由两部分构成:技术开发收入和许可收入。前者是“上车前”的收入——车企给出定点后,Momenta将智驾方案适配到具体车型,完成开发、测试和系统集成;后者是“上车后”的收入——车型正式量产后,Momenta按每辆搭载系统的车辆收取许可费。
2023年,Momenta几乎还靠技术开发支撑收入,到了2025年,许可收入飙升至9.68亿元,三年增长42倍,占比跃升至40.1%。
这组数据的逻辑链条很清晰:前期技术开发是固定成本投入,一旦方案完成、车型进入量产,后续的许可收入边际成本极低,每一辆新增量产车带来的几乎都是纯利润。定点车型越多,量产规模越大,许可收入的雪球就滚得越快。而许可收入占比的提升,让Momenta在保持高研发投入的同时,逐步逼近盈利拐点。
这便是Momenta商业规模化闭环的核心:定点带来量产,量产带来收入,收入支撑研发,研发反哺模型,模型又帮助拿下更多定点。 120亿公里的真实道路数据、超210款车型定点、65%的第三方城市NOA市占率——这些数字不是孤立的,它们共同构成一个不断加速的正向循环。
这不仅是数据的规模化,更是商业的规模化。当数据和商业两条曲线同时上扬,物理AI基座模型的飞轮才算真正转了起来。
总结来看,Momenta的选择在这场路线之争中显得尤为清晰:它不依赖语言模型作为中介,而是让AI直接学习物理世界的规律本身。在曹旭东看来,“世界模型让AI从理解语言走向理解物理世界,这是通往更高级别自动驾驶的必经之路”。
而Momenta的差异化在于:它不仅选择了世界模型路线,而且已经实现了量产级落地。
目前,全球排名前十的车企中已有9家与Momenta推进智驾技术落地,其方案已在亚洲、欧洲、大洋洲、拉美和北非的等超10个国家和地区实现部署。Momenta的股东阵容包含上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等7家全球车企——这些车企本身就是世界模型浪潮的重要推动者,而它们选择与Momenta合作,本身也构成了一种行业背书。
这些产业合作的意义不止于收入——每一辆搭载Momenta系统的量产车,都是世界模型的数据采集终端。在物理AI时代,数据规模本身就是最深的护城河。
当然,物理AI远未到尘埃落定的时刻。世界模型能否从学术概念转化为真实世界的底层能力,自动驾驶能否成为物理AI最先跑通的训练场,都还需要时间验证。但Momenta正在证明一件事:在物理AI这场长跑中,它已占据一个关键身位。
这个身位的核心竞争壁垒,不在于某一项算法指标的领先,而在于一套已经跑通的数据和商业规模化闭环。120亿公里实车数据、90多万台量产车、65%的第三方城市NOA市占率、R7世界模型三层架构——这些要素共同构成了物理AI基座模型的雏形。
物理AI的核心是“数据scaling和商业scaling,二者形成正向反馈”。而目前唯一同时实现这两者的,是自动驾驶。对Momenta而言,真正的命题是:自动驾驶这条已具备规模化条件的路径,能否训练出物理AI时代的基座模型。
答案还在路上。但至少,Momenta已经率先出发。
雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。