0
2025年6月,特斯拉下一代FSD计算平台——代号AI5(原称HW5.0)——正式进入量产阶段。这块芯片的核心参数足以让整个行业倒吸一口冷气:算力2000-2500 TOPS,采用台积电3纳米N3P工艺制造。
要理解这个数字意味着什么,需要把时间轴拉长来看。
2014年,第一代Autopilot硬件(HW1.0)搭载的是Mobileye EyeQ3芯片,算力仅0.256 TOPS——连今天的智能手环都比它强。2016年的HW2.0换上了英伟达Drive PX2,算力跃升到21 TOPS,勉强能支撑高速巡航的基础功能。真正的转折点出现在2019年:HW3.0首次搭载特斯拉自研的FSD Chip,双芯片总算力144 TOPS,三星14nm工艺。马斯克当时豪言所有HW2车主可以免费升级,因为"自研芯片的成本比外购还低"。
2023年到2024年间推出的HW4.0把算力推到了300-720 TOPS(不同统计口径有差异),制程升级到7nm,CPU核心数从12核扩展到20核,NPU从2个增加到3个。
然后是现在的AI5——2000-2500 TOPS,3nm制程。
十年时间,从0.256到2500,算力增长了接近一万倍。这个增长曲线不是线性的,而是指数级的——HW4比HW3快了3-5倍,而AI5比HW4又翻了3-5倍甚至更多。在模型推理性能上,AI5据称能达到HW4的10倍。
这不是常规的技术迭代,这是代际跨越。
一个容易被忽略但意味深长的细节:特斯拉没有沿用"HW5.0"这个命名,而是改叫"AI5"。
从"Hardware Version 5"到"AI 5",一字之差背后是对产品定位的根本性重构。过去的命名逻辑是硬件版本号——HW1、HW2、HW3、HW4,每一代都是上一代的渐进式升级,核心任务是把自动驾驶能力从L2推向更高等级。而"AI5"这个名字暗示了一个完全不同的叙事:这不再是一个"辅助驾驶硬件的第5次迭代",而是一个AI原生计算平台的第5代进化。
区别在哪里?HW系列的设计目标主要是运行传统规则算法+早期神经网络混合架构,而AI5从底层架构开始就是为端到端大模型优化的。FSD V12已经把超过40万行C++规则代码全部移除,换成纯神经网络驱动。AI5就是为这种新范式准备的——它的算力分配、内存带宽、指令集全部针对大模型推理场景做了定制化设计。
在供应链策略上,AI5同样体现了特斯拉的务实与精明。台积电负责主力量产(3nm N3P工艺),三星作为备用代工厂。马斯克亲自确认了这个双厂策略,并坦言两家在工艺实现上略有差异,但特斯拉的目标是让AI软件在不同版本的芯片上实现完全一致的运行效果。
为什么需要两家?台积电3nm产能全球紧张,苹果和英伟达是最大的客户。如果只绑一家,一旦产能吃紧或地缘政治波动,整个新车交付计划都会被卡脖子。三星作为备胎,预计在2026年大规模量产搭载AI5的车型时正式启用。这种"A主B备"的模式在汽车芯片行业并不常见——大多数车企还在为抢到一颗Orin X焦头烂额,特斯拉已经在布局双供应链了。
光有强芯不够。自动驾驶是一个"眼睛+大脑"的系统工程,传感器决定了信息采集的上限,算力决定了处理能力的边界。两者必须匹配,任何一方成为短板都是浪费。
HW3.0时代的摄像头配置在今天看来相当"朴素"。8颗外部摄像头加上1颗舱内摄像头,前视方案采用的是三目设计(三个不同焦距的镜头覆盖远近),每颗摄像头的像素仅为1280×960,约120万像素,图像传感器来自安森美的AR0136AT。帧率36 FPS,最远探测距离约250米。
到了HW4.0,这套系统发生了质的变化。前视从三目改为双目超远距方案,像素分辨率跃升至2896×1876,约500万像素——清晰度提升了将近4倍。图像传感器换成了索尼的IMX490,这是消费电子级别的旗舰传感器下放到车载领域。接口数量从8个增加到最多12个,给未来留足了扩展空间。CPU从12核升级到20核,视频处理能力大幅增强。
但HW4.0还有一个引发广泛讨论的决定:取消了超声波雷达。HW3标配12个超声波传感器,用于低速泊车和近距离障碍物检测。HW4直接砍掉了,用纯视觉方案完成泊车功能。这个决策在当时争议不小——很多车主反映泊车体验一度下降。但特斯拉的态度很坚决:既然选择了纯视觉路线,就不能在某个场景下"偷偷"加回其他传感器,否则整个技术哲学就不成立了。
AI5时代,传感器系统的升级方向更加明确:更高分辨率的摄像头(具体参数尚未完全公开)、镜片加热元件(防止雨雾天气结冰遮挡)、更强的防风雨涂层(提升恶劣天气下的成像质量),以及更完善的硬件冗余设计。
这些细节透露出一种信号:特斯拉正在补齐纯视觉方案最薄弱的一环——环境适应性。
这是整个汽车行业分歧最大的技术路线问题之一。
特斯拉选择纯视觉方案的理由,可以从三个层面来理解。
第一个层面是数据一致性原则。自动驾驶的核心训练数据来自于摄像头的图像采集,如果训练时用的是摄像头图像、推理时却引入激光雷达的点云数据,两种传感器的数据格式和表征方式存在天然的模态差异(modality gap)。模型需要在训练阶段学会融合这两种异构数据,增加了复杂度和潜在误差源。而如果从头到尾只用一种传感器,输入输出的一致性天然得到保证。
第二个层面是成本与规模化。一颗高性能机械式激光雷达的价格曾经高达数万元,即使现在固态/半固态激光雷达降到了数千元量级,对于一款定位大众市场的车型来说仍然是不可忽视的BOM成本。Model Y能卖到26万以下且保持健康的毛利率,省掉激光雷达是重要因素之一。
第三个层面是系统简化带来的可靠性提升。每增加一种传感器类型,就需要一套对应的感知融合算法、标定流程、故障检测机制。传感器种类越多,系统复杂度指数级上升,潜在的故障点也越多。纯视觉方案把所有鸡蛋放进一个篮子——然后把这个篮子做得足够结实。
但信仰是有代价的。
恶劣天气是纯视觉最明显的软肋。大雨、浓雾、强逆光条件下,摄像头的成像质量会显著下降,而激光雷达通过主动发射激光束进行测距,受环境光照影响小得多。特斯拉在AI5上加入镜片加热元件和防风雨涂层,正是为了缓解这个问题——但这属于"修补"而非根本解决。
深度估计精度是另一个挑战。摄像头通过计算机视觉算法推断物体距离,本质上是"猜"出来的;激光雷达则是直接测量,精度高几个数量级。在高速行驶场景下,几米的距离误差可能就是安全与事故的区别。
长尾场景的识别难题也不容忽视。异形车辆(如翻倒的卡车、载超宽货物的三轮车)、非常规交通参与者(穿奇装异服的人、突然冲出的动物)——这些场景在训练数据中出现频率极低,但对安全性要求极高。多传感器融合方案可以通过交叉验证来降低漏检率,纯视觉则完全依赖模型的泛化能力。
FSD V12的端到端革命在某种程度上强化了纯视觉路线的逻辑。当决策过程完全由神经网络完成而不是人工编写的规则代码时,模型从海量真实驾驶数据中学习到的"直觉",理论上可以超越人类工程师预设的场景应对能力。截至2025年底,FSD累计行驶里程已超过100亿英里,这个数据规模本身就是一道越来越高的壁垒。
但问题依然存在:100亿英里的数据是否覆盖了足够的极端场景?端到端模型的可解释性缺陷如何在安全认证中过关? 这些都不是靠堆算力就能回答的。
特斯拉AI5的2500 TOPS确实惊人,但如果把它放在整个行业坐标系中审视,画面会变得更加有趣。
当前中国市场上主流的智驾芯片方案呈现明显的梯队分布:
深层的分野在于技术路线的选择。以华为乾崑ADS为代表的中国主流方案坚定走多传感器融合路线——激光雷达(通常1-3颗)+毫米波雷达+高清摄像头,三重感知互为备份。这种方案的逻辑是:能用钱解决的问题就不要留给概率。多花几千块钱加几颗激光雷达,换来的是在各种极端场景下的兜底安全感。
特斯拉的回应是:我不信概率,我信数据和算力。
两条路没有绝对的对错,至少目前如此。多传感器融合方案在中国复杂的城市道路环境中表现确实出色——华为ADS的城市NOA开通速度、小鹏XNGP的城市覆盖广度都处于行业领先位置。纯视觉方案则在北美的高速公路和结构化较好的城区展现了惊人的效率——FSD V13/V14版本的拟人化驾驶表现已经让不少美国用户感到"后座上的乘客经常忘了这不是人在开"。
但这两个市场不能简单类比。中国的道路参与者密度是美国的好几倍,电动车、自行车、行人、外卖骑手混杂的交通场景复杂度全球罕见。纯视觉方案能否在这种环境下达到同样的水准,是AI5入华后必须面对的第一个大考。
回看标题提出的问题——纯视觉方案还能领先多久?也许更准确的问法是:领先的定义本身正在发生变化。从算力数字的单维竞争,走向算力、算法、数据、生态、合规的多维博弈。在这个新棋局里,AI5是一张极其强劲的牌,但远远不是最后的王牌。
(雷峰网(公众号:雷峰网)新智驾北京车展2026专题)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。