您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
智能驾驶 正文
发私信给新智驾
发送

0

特斯拉纯视觉智驾解析:为什么坚持不用激光雷达?

导语:

2021年5月,特斯拉做了一个让整个汽车行业目瞪口呆的决定:从新车配置中彻底移除毫米波雷达。在此之前,几乎所有的L2级辅助驾驶系统都至少配备三种传感器——摄像头、毫米波雷达和超声波雷达——再加上部分车型额外搭载的激光雷达。而特斯拉说:不玩了,以后只用摄像头。

这不是一个临时性的成本削减决策。从那之后的每一款新车型(Model S/X的改款版、新款Model 3/Y),特斯拉都在坚定地执行这条路线。甚至在2024年推出的HW4.0硬件平台上,虽然预留了高分辨率成像雷达(Phoenix)的物理接口,但绝大多数交付车辆依然没有安装任何形式的非视觉传感器。

一家拥有全球最丰富自动驾驶数据的公司,选择了一条与行业主流完全相反的技术路径。 当华为乾崑、小鹏XNGP、理想AD Max、蔚来NOP+等系统纷纷采用激光雷达作为核心感知器件时,特斯拉却在做减法。

这个选择的底气来自哪里?代价又是什么?

纯视觉的第一性原理与数据一致性原则

要理解特斯拉为什么要走纯视觉路线,得先理解它对自动驾驶问题本质的定义。

在特斯拉的技术哲学中,自动驾驶的核心挑战不是"如何感知环境",而是"如何让机器像人类一样理解和应对驾驶场景"。而人类的驾驶行为完全依赖视觉信息——眼睛接收光信号,大脑处理图像并做出决策,手脚执行操控动作。中间没有谁在用激光测距仪确认前车距离,也没有谁在用毫米波雷达穿透雨幕探测障碍物。

既然人类可以仅靠视觉安全驾驶,那理论上机器也应该能做到——只要它的"眼睛"够好、"大脑"够强。这就是纯视觉路线的第一性原理出发点。

基于这个起点,特斯拉推导出了一个被称为"数据一致性原则"的核心论断:

训练数据必须和推理环境使用相同的输入模态。

换句话说,如果模型是用摄像头采集的视频数据训练出来的,那它在实际运行时也应该只依赖摄像头输入。如果训练时用的是纯视觉数据但运行时加入了激光雷达的点云数据,就引入了"模态gap"——模型从未在训练阶段学习过如何融合两种不同性质的数据流,强行融合的结果往往不是"1+1>2",而是互相干扰。

这个原则看似简单,但在工程实践中有着深远的影响。它意味着特斯拉不需要维护一套复杂的多传感器融合算法——不需要处理摄像头和激光雷达之间的时空同步问题,不需要解决不同传感器在相同场景下输出矛盾结果时的仲裁逻辑,也不需要为每种新增的传感器类型重新设计整个感知系统的架构。

少一种传感器,就意味着少一层系统复杂度,少一类潜在故障点,少一大块需要调试和维护的代码。 在一个已经足够复杂的系统工程中,这种简化本身就是一种竞争力。

端到端大模型:让纯视觉从"勉强能用"到"真正好用"

如果停留在传统规则驱动的时代,纯视觉方案可能永远无法达到令人满意的水平。因为传统的感知-规划-控制分层架构中,视觉算法负责的只是"看到什么"这一步——把像素转换成"前方有一辆车在50米处"这样的结构化描述。然后由后续的规划模块根据这些描述来决定怎么开。

问题是,从原始图像到结构化描述的过程中会丢失大量信息。一张包含复杂路口、多个交通参与者、变化光照条件的图像,经过感知模块处理后可能只剩下几十个检测框和几张语义分割图。那些微妙但关键的细节——比如对面司机的眼神是否注意到你、路边行人是否有横穿的意图、前方车辆刹车灯亮起的时机——全部被丢弃了。

FSD V12带来的端到端变革从根本上改变了这个逻辑链条。神经网络不再被要求输出"前面有一辆车"这样的人类可读结论,而是直接输出"方向盘左转15度、减速到45km/h"这样的操控指令。中间没有任何信息压缩环节——原始视频帧直接映射为驾驶动作。

这对纯视觉路线的意义是革命性的。因为端到端模型不需要人工定义"什么是重要的特征",它会自己从海量数据中学习哪些视觉线索与安全的驾驶行为相关联。也许模型发现前方车辆轮胎的微小偏转角度是判断其即将变道的关键依据——这种细微的视觉特征在传统架构中根本不会被感知模块提取出来,但在端到端模型里可以被自动捕捉并利用。

换句话说,端到端技术让摄像头的潜力被释放到了前所未有的程度。它不再是"只能看到轮廓的模糊眼睛",而是变成了能够捕捉极细粒度视觉信息的"超分辨率感知器官"。这解释了为什么FSD V12之后纯视觉方案的体验出现了质的飞跃——不是因为摄像头硬件变好了多少,而是因为"看"这些画面的"大脑"发生了代际升级。

截至2026年初的数据,FSD累计行驶里程已突破16亿英里(约25.7亿公里)。每一天都有海量的新驾驶场景数据被回传到特斯拉的超算中心用于模型迭代。这种数据飞轮一旦转起来就会不断加速——更好的模型带来更少的接管、更多的里程积累、更多样化的场景覆盖、进而训练出更好的模型。纯视觉路线的上限正在被这条飞轮持续推高。

三大挑战:纯视觉无法回避的真实代价

然而,坚持纯视觉路线并不意味着没有代价。事实上,特斯拉在这条路上遇到的挑战比任何采用多传感器的同行都要尖锐和具体。

第一个挑战是恶劣天气下的性能衰减。

摄像头的工作原理是通过接收物体反射或发射的光线来成像。这意味着它本质上是一种被动式传感器——依赖外部光源条件。在大雨天,雨滴会在镜头上形成水膜导致图像模糊;在浓雾天,悬浮颗粒物散射光线使能见度急剧下降;在强逆光场景下(比如日出或日落时正对着太阳行驶),动态范围不足会导致画面大面积过曝或欠曝。

相比之下,激光雷达主动发射激光束并测量反射回来的时间来构建三维点云,不受外界光线条件影响。毫米波雷达使用无线电波,可以轻松穿透雨雾和灰尘。这两种传感器在恶劣天气下提供的冗余感知能力,是纯视觉方案目前难以企及的。

特斯拉的应对策略包括:在摄像头镜片上增加加热元件防止起雾结冰、喷涂特殊的疏水涂层加速雨水滑落、以及通过算法层面利用时序信息(连续多帧画面)来弥补单帧质量的下降。这些措施能在一定程度上缓解问题,但从物理原理上看,纯视觉在极端天气下的天花板确实低于多传感融合方案。

第二个挑战是深度估计的精度瓶颈。

虽然双目立体视觉可以通过左右两个摄像头的视差来计算物体的距离,但这种方法的精度受到基线长度(两个摄像头之间的距离)和分辨率的共同限制。在近距离内(10米以内)双目视觉的测距精度尚可接受,但随着距离增加误差呈非线性增长——一辆在80米外的车,双目系统给出的距离估计可能有数米的偏差。而在高速公路以120km/h行驶时,几米的测距误差足以影响跟车距离的安全余量。

激光雷达的优势在于它能直接提供厘米级精度的绝对深度信息,不存在"推算距离"这个步骤——每个点都带着精确的三维坐标。这也是为什么大多数追求高可靠性的自动驾驶系统都将激光雷达作为核心传感器的根本原因。

特斯拉在这个问题上的策略是:不追求绝对精确的测距,而是通过大量的驾驶数据教会模型建立"看起来多大≈大概多远"的直觉性判断。这种方法在大多数日常场景下工作得很好,但在一些边缘情况下(比如前方是一辆外形异常的异形车或者堆满货物的卡车)可能出现严重误判。FSD V13在实际测试中被记录到的"怒闯红灯"事件,很可能就与深度估计偏差有关。

第三个挑战是长尾场景的无限性。

自动驾驶最难的从来不是在空旷的高速公路上保持车道,而是处理那些教科书里不会写的极端情况:一只狗突然从两辆停着的车之间窜出;前方车辆掉落了一个不规则形状的货物;施工路段的锥桶排列方式不符合任何标准模式;一个穿着深色衣服的人在夜间无路灯的路口过马路……

对于多传感器融合系统来说,激光雷达可以在低光照甚至零光照条件下提供可靠的物体检测能力,毫米波雷达可以发现被遮挡的目标。多种传感器的组合大大降低了漏检的概率。而对于纯视觉系统来说,所有这些情况的处理压力全部压在了摄像头的感知能力和模型的泛化能力上。任何一个场景的训练数据不足,都可能导致系统在该场景下的表现失常。

特斯拉的答案是:用数据量对抗场景多样性。16亿英里的行驶里程意味着FSD已经"见过"了数量惊人的罕见场景。但"见过"不等于"学会处理"——模型能否正确响应取决于该场景在训练数据中的占比和标注质量。对于真正的长尾场景(发生概率低于百万分之一的极端情况),无论积累多少里程都可能存在覆盖盲区。

行业分歧的本质:两条路通向同一个终点吗?

把视角拉高,纯视觉和多传感融合之争其实反映了自动驾驶领域的一个根本性方法论分歧:应该追求系统的极致简洁,还是追求信息的充分冗余?

站在特斯拉这边的是一群信仰"奥卡姆剃刀"原则的工程师。他们的论证是:每增加一种传感器就增加了一层融合算法的复杂度,增加了校准和维护的成本,增加了一个潜在的失效点。而且不同传感器之间的数据冲突如何裁决本身就是一个未完全解决的学术问题。既然如此,为什么不集中所有资源把一条路做到极致?

站在另一边的是华为、理想、蔚来等部分中国头部智驾团队。他们的逻辑同样自洽:自动驾驶首先是一个安全问题。在任何情况下都不应该把所有鸡蛋放在一个篮子里——尤其是当这个篮子的物理特性决定了它在某些条件下必然会出现性能波动的时候。多花几千块钱装一个激光雷达换来的是在暴雨浓雾天也能正常工作的安全保障这笔账怎么算都是划算的。

有趣的是,这两派之间并不是绝对的敌对关系。行业内已经出现了一些融合迹象:

部分原本坚持纯视觉的公司开始在某些高端车型上重新考虑激光雷达的选配方案。而一些重度依赖激光雷达的系统也在尝试减少对其的依赖程度——比如在高速NOA场景下主要依靠视觉和毫米波雷达,只在城区复杂场景才激活激光雷达的全功率运行模式。

这种趋同暗示了一个可能性:纯视觉和多传感融合或许不是非此即彼的对立选项,而是不同发展阶段的最优解。 在算力有限、算法不够成熟的时代,多传感器冗余是保证安全的必要手段。而当端到端大模型的感知能力突破某个临界点后,单一传感器的方案可能在成本和效率上展现出更大优势。这个临界点在哪里目前还没有人能给出确切答案,但它大概率会在未来三到五年内出现——AI5芯片上车和FSD入华后的市场反馈将提供最重要的参照坐标。

结语

特斯拉为什么坚持不用激光雷达?

答案不是一个简单的"省钱"或"马斯克固执"。它是基于第一性原理推导出的技术判断——如果端到端大模型能让摄像头的感知潜力充分发挥出来,那纯视觉不仅在理论上是可行的,而且在工程实践上可能是最优解。但目前这个"如果"还没有被完全证实。纯视觉路线已经证明了它在大多数场景下可以做得相当好,但它还没有证明自己在所有场景下都能做到足够好。

这条路的终局还未揭晓。但有一件事是确定的:特斯拉的坚持迫使整个行业重新思考一个问题——我们到底需要多少种传感器才能实现安全的自动驾驶?这个问题的答案,可能会重塑未来十年智能驾驶产业的竞争格局。

(雷峰网(公众号:雷峰网)新智驾北京车展2026专题)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说