通用人工智能元年：商汤「绝影」如何进化成「天赋型运动员」

本文作者：卢洁萍

2023-04-23 20:15

导语：如何在保障需求性能的基础上，尽可能降低智能驾驶方案的成本？通用人工智能会是利器吗？

这一整周，新智驾团队都泡在上海车展里，充分浸润中国汽车行业的新气息，沿着“电动化”和“智能化”大风向，也嗅到了相较往年，新能源汽车行业更为鲜明的喜好。

一个字可以形容今年的上海车展——卷。

“智能化”无疑是“卷之又卷”的红海区。

城市领航功能、全域智能架构、基于AI大模型算法的更新、舱内语音交互......车企也好，供应链企业也好，如果不亮出智能化相关的新产品、新技术或者量产交付新进度，那么就会在众多“喜新厌旧”的媒体人和专业观众的目光中，迅速沦为背景板。

实现汽车智能化是行业共识，但其实在几年前，主机厂们对智能车舱、智能驾驶功能，包括对技术和测试方案的理解都还没有一个特别清晰的概念。

而当下，各种智驾方案已进入大规模量产阶段。

比如在今年上海车展，新智驾发现，光是搭载了商汤绝影智能驾驶和智能车舱产品的车型诸如蔚来ES7、极氪X、东风猛士917、广汽埃安AION LX Plus、传祺E9、影酷、M8宗师、哪吒S等等，就差不多有30款展出。

通用人工智能元年：商汤「绝影」如何进化成「天赋型运动员」

商汤财报显示，仅2022年，商汤绝影的智能驾驶和智能车舱产品新增汽车定点数已超过800万台。

主机厂们也渐渐搭建起自己内部的大规模测试团队，对智驾产品的形态、功能的体验、技术的认知，也有了更深入和更成体系的理解和需求。

商汤的联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚告诉新智驾，如今主机厂们正对智能化提出更高的要求：

“首先，更看重智能驾驶的实际价值，之前是'从无到有'，现在则是'从有到优'，强调高效交互，要给消费者带来更'拟人化'的智能驾驶体验；
其次，智能驾驶方案量产上车后，要进一步普及，就要求进一步降低成本。”

如何在保障需求性能的基础上，尽可能降低成本，这是一门关于省钱的精妙平衡艺术——

而商汤绝影抓住的关键致胜武器之一，是通用人工智能。

从“刻苦型”运动员到“天赋型”运动员：更“拟人化”的智驾体验

先来看看通用人工智能是如何提升智能驾驶体验的。

犹如婴儿一声响亮的啼哭，ChatGPT的亮相和火爆，宣告了通用人工智能元年的到来。

什么是通用人工智能（AGI）？

一般而言，现有人工智能系统输入的是多模态数据，输出也可以是多个任务，但是这些任务都是预先设计好的，一旦遇到新的任务，就要重新设计AI系统，采集样本，对模型重新训练。

而一个AGI模型，在给定合适的提示词作为输入后，就能生成多模态数据，再加上用自然语言描述的任务，就可以在不改变模型本身，仅通过设计合适的提示词的情况下，覆盖海量复杂的开放式的任务，包括各种长尾任务，也包括一些主观描述性的任务。

以一个智能驾驶场景为例，比如在给AI系统一幅图后，系统希望知道车辆是否应该减速。

通用人工智能元年：商汤「绝影」如何进化成「天赋型运动员」

在现有的AI系统中，系统首先要进行物体检测，得到检测框，再进行文字识别，最后做出“要不要减速”的决策判断，所有这些模块都是预先设计好的任务。

在这种模式下，系统需要通过终端设备不断采集并且标注大量的数据去更新模型，模型再反馈到前期终端设备，去获取更高质量的数据，这就是过去几年常被提及的“数据飞轮”。

而在AGI系统中，给到系统图像后，终端可以问AGI任何问题，比如“这个图标是什么意思?我们应该做什么？”。

AGI系统会给出答案和中间的推理过程，比如看到了前方100米每小时30公里的限速，这是学校区域，有小孩活动，所以需要小心小孩，将车速降到30公里每小时以下。

通用人工智能元年：商汤「绝影」如何进化成「天赋型运动员」

可以这么理解，在AGI的系统当中，人对于模型的输入是对齐人的意图的——即通过人的调教、指导甚至方法论的输出，不断地解锁新模型的新能力，这个过程是人和模型共创的。

AI模式，王晓刚视之为“资质平庸”的苦练型运动员，AGI模型则是“天赋型”运动员。

王晓刚认为，以往的一些模型，无论是中模型或小模型，它是一个专属模型，可以把它理解为一个比较刻苦的运动员，天赋不是很高，但通过勤奋和努力也能达到一定的水平，但这就需要教练一招一式一次次地去演示给模型看，或者是需要更有天赋的大模型的演示，这意味着需要采集更多的训练数据。

“优秀的大模型就像非常有天赋的运动员一样，作为教练，人并不需要一招一式地去演示给他，只要输出一些方法论，给予恰当的引导，甚至是在一些关键的地方给予指导，它就能够学会甚至创造新的动作，见招拆招，无招胜有招。”

什么是智能驾驶技术的本质？

自动驾驶技术的本质，是解决时间(When) 与空间(Where) 交叉发生的综合场景问题：

这就需要利用感知融合、建图定位、决策规划、运动控制等自动驾驶全栈技术，解决好自动驾驶运行期间的日夜差别、逆光、雨雪雾等不同时间场景(When)及高速公路、城市道路、停车场、园区、港口、矿山等各类空间场景(Where)。

高价值数据获取+高效率数据利用，则是自动驾驶技术致胜关键。

由此商汤绝影提出了自己的量产智能驾驶公式：

自动驾驶技术能力=场景数据x数据获取效率x数据利用效率 =场景数据x数据获取效率x先进算法x先进算力。

商汤研发体系正逐步完成从“苦练型”大模型到“天赋型”大模型的转变，也意味着其数据获取效率的大幅提升。

所谓更高的数据获取效率，即如何更快地去获取这些数据，这有两个维度：

一方面是如何基于新计算平台快速地使车辆跑起来，实现闭环迭代；另一方面是如何快速实现数据回流。

比如基于“苦练型”AI模型，如果在客户端或者OEM端发现了系统对车型的识别不够好，就要花大量的时间和金钱，采集大量数据，再去做标注、重新做训练和验证，一般以月为时间单位进行优化。

而基于AGI系统，商汤绝影智能汽车事业群智能驾驶副总裁石建萍介绍，这一流程就能被大大加速，商汤已经可以做到每两周迭代一个版本，至于对特定场景数据的筛选和获取，还可缩短至3-5天完成。

同时，基于AGI系统，数据标注成本也能降至原来的十分之一。

以激光雷达为例，过去各公司通过激光雷达做感知时，当拿到一个新的型号，要想获得可靠的感知结果，一般需要标注几十万帧数据，这对应着几十万甚至上百万个的检测框，整个标注成本会达到近百万元，如果要覆盖更多异常场景、目标或者天气，数据还要再积累几十倍，成本也会高达几百万元。

另外，由于激光雷达对标注员、标注工具的要求比较高，现阶段完全熟练的数据标注员也不多，因此构建一套完整可持续工作的数据集，即使调度了几十甚至几百人的标注团队，也得花费将近半年时间。

“现在商汤绝影通过AGI大模型做激光雷达数据的打标签、预标注、筛选，基本能把数据标注的量级降至小于十万张。”石建萍透露。

那基于AGI大模型实现高效数据闭环所需要的原料——海量数据又是从何而来？

商汤绝影有三类渠道：

智能交通+智能驾驶多行业数据汇聚：通过以往不同的业务场景（比如路端的智能感知产品、车端侧的车城网平台等）汇聚多行业数据，拥有广泛的时空场景数据。
L2+和L4多产品线形态覆盖：绝影的产品线覆盖了量产行车场景、量产泊车场景、园区自动接驳场景、运营区自动载客场景等，也能够实现规模化、泛化场景量产数据和复杂任务场景高精度数据互相反哺。
广泛车企合作：商汤绝影已与 30 多家车企建立合作关系，到 2022 年底，绝影智能驾驶技术已在多个车型实现量产。

果实成熟：还需与产品方案“双向奔赴”

数据获取效率提高的背后，是算法和算力的快速优化和迭代。

在算力方面，商汤做了件核心工作：建立人工智能数据中心。

目前商汤AI大装置SenseCore基于2.7万块GPU的并行计算系统实现了5.0 exaFLOPS的算力输出，可支持最多20个千亿参数量超大模型（以千卡并行）同时训练。

在算法优化方面，基于AIDC基础装置，商汤早在2021年底就发布了名为书生（Intern）的超大模型，是视觉模型领域业界最大的模型。

车展前夕，商汤又发布了“日日新”大模型体系，这个体系下包括了感知、AIGC、图像生成、自然语言、多模态等一系列模型，每个方面的模型，都可以不断延伸。

通用人工智能元年：商汤「绝影」如何进化成「天赋型运动员」

“比如商汤的感知模型最早在2019年是十亿参数的模型，到今天已经有320亿参数，是世界上最大的视觉感知模型。”王晓刚表示。

而为了解决智能驾驶、智能车舱中的各种问题，基于以上通用大模型，商汤又逐渐训练出专用小模型。

以业内这两年提得比较多的BEV感知算法为例。

在使用BEV算法之前，大部分智能驾驶公司的车辆位置感知流程，一般是先去感知2D图像中的一些特征，比如说车在哪里、车轮的接定点在哪里、车的长宽比例是多少，由此拿到一些图像层面的信息，再根据相机的一些3D标定几何参数，获得目标在三维空间下的准确位置信息。

但在这过程中，整个空间位置会出现很多误差，因为一旦标定过程中的一些输入要素不稳定，就会导致最终感知结果的不稳定，从而使得系统在基于这些位置信息，在后续对车辆做优化控制时，出现很多异常的表现，比如车辆急刹等等。

BEV感知方案，则是整个流程还要为下游的车辆规划控制服务，所以会直接端到端输入3D信息，避免了上述过程中需要一步步转换目标感知信息造成的误差，除此之外，BEV的目标感知，还包括了对车道要素的感知、对可行驶区域的感知。

因此基于上文提及的商汤在AI算法和模型方面的积累，绝影训练出了自己的BEV环视感知算法。

“我们是第一批真正上线了BEV算法方案的公司，在不同的算力芯片上都有部署实施，而且已经进到了量产项目的流程中去，同时整套长尾目标的识别体系也是已经量产上车的。”石建萍表示。

根据介绍，现在商汤已经可以实现2D与3D数据的自动标注与校验，即基于超大模型完成图像2D和Lidar 3D数据自动标注，绝影标注效率可与标注员保持一致。

与此同时，BEV感知在落地量产时，会面临多车型传感器选型和配置存在差异的问题，而商汤绝影采用Domain Adaption算法，也解决了BEV感知在面临量产多车型时的跨域泛化问题，进一步提升了数据利用效率。

大模型的突破正引来新一轮研究范式的变革，商汤绝影的研发体系也正快速迭代，从基于规则的“苦练型”运动员往基于数据的“天赋型”运动员演进。

而基于通用大模型，商汤绝影蒸馏出智能驾驶专用小模型，使得商汤绝影不管是对智能驾驶所需要的场景数据利用效率、数据获取效率都大幅提升，从而进一步带来了智能驾驶方案研发和量产上车过程中，成本的降低和驾驶体验的优化。

我们正处在汽车智能化变革当中非常重要的时间点，随着智能化功能开始大规模进入量产阶段，智能驾驶概念普及，不管是主机厂还是消费者，都对汽车智能化提出了更高的要求。

“通过通用大模型，再快速地对小模型进行更新，产品的研发和交付效率能有上百倍的提升，综合来看，这是能做到智能驾驶相关方案的成本和性能平衡的。”

王晓刚透露，今年商汤绝影的目标，是在智能驾驶L2+方案量产交付后，在提升体验方面，树立标杆案例，再逐渐形成低成本的标准化方案。

“商汤在通用人工智能大模型领域已有5年的积累，今年又是通用人工智能的元年，这到了商汤发挥通用大模型的作用的时候，我们要去树立商汤绝影在通用人工智能领域核心供应商的地位。”

雷峰网(公众号：雷峰网)#雷峰网#雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

卢洁萍

编辑

vx: lujiepinga，欢迎多多交流

扫描关注作者微信

发私信

当月热门文章