专访王刚：阿里自动驾驶的技术之路 | 附问答

本文作者： Dude

2020-04-10 16:19

导语：AutoDrive 是一种全新的技术理念，它首次提出了计算换智能的方式，试图更新当前自动驾驶的人工设计的做法。

阿里，在自动驾驶上近乎是低调的。

低调并不等于没有部署，作为全球最大的电商平台，阿里的自动驾驶选择了以物流场景进行切入，这几乎是顺理成章的事情。

而操刀阿里自动驾驶的人是王刚，这个曾经成功打造出天猫精灵第一代自然语言理解系统的技术负责人。而自动驾驶被认为是人工智能的集成大者，这位AI大拿在另一个领域延伸对人工智能更为深刻的理解。

王刚对于自动驾驶有着属于自己的理解：数据的本质，自动驾驶当中的场景划分，“深度学习+规则”的理解，当下自动驾驶的算法设计，这位AI 顶级科学家都从最本质的角度进行了探讨。

看法之外，王刚也拿出了一套解决方案 —— AutoDrive；此外，王刚也提出了自动驾驶研发中——No Free Lunch 的理论——不可能以一种通用的算法来解决所有场景的问题。与理论相对应的是，王刚认为对场景的高度精细化处理，这是当下推进自动驾驶落地的较为理想的方法。

新智驾对话王刚，了解自动驾驶之于阿里商业板块的契合度以及商业部署，了解这位人工智能顶尖的科学家对于当下AI最难的落地场景的思考。

场景的多样性是自动驾驶中的大挑战

不同的人对于自动驾驶落地之难，有不同的归因。

有人将其归因为是硬件原因；有人将其归因为基础交通设施并不完善；事实上，这些原因确实也构成落地之难的阻力之一。

但在众多的成因当中，王刚认为最大的原因是当下自动驾驶算法在很多情况下，还不能够有效地处理道路上的复杂交通状况，场景的多样性是自动驾驶所面临的一个非常大的挑战。

事实上，自动驾驶作为一个和地理环境、人身安全强相关的行业，必须要对所在的场景有清晰的感知，才能作出最为正确的决策。

当前，业界对于自动驾驶的场景分类，有着非常多的思路。有按照行驶环境来进行分类，比如，高速公路、城市道路、乡村道路；有的是按照场景的要素，比如：物体类型、天气等情况进行组合。

通常情况下，这些组合都是冗余的，并且和算法是割裂的。王刚认为必须要打破这种割裂的关系，形成精细化的、和算法强相关的分类方法才是行之有效的方法。

在去年9月的云栖大会上，王刚首次亮相了AutoDrive 平台。这个平台的发布，也试图来解决一直以来自动驾驶场景分类过于粗糙的问题。

要理解精细化的分类方法，就必须要追根溯源地理解自动驾驶数据的输入方法。

自动驾驶数据的输入主要包括了两类信息：一类是以传感器数据为代表的信息输入，它是对自然界信号的数字化；另一类是基于人类知识的确定表达，比如交通规则。

王刚对新智驾进一步解释：因为自然数据的信号本身是自然界产生的，数据处在于一个非常高维的空间，是人脑很难理解和想象的范畴，因此依赖于人工设计对数据进行 Low-Level 或者Middle-Level 的处理，是很难达到最优效果的。现行的神经网络超参数设计或网络结构都是人工设计的痕迹居多，而自动驾驶行业都几乎都面临着一个尴尬的事实：调整神经网络参数或是设计网络结构高度依靠工程师经验以及领域知识，基础设计以及工程平台的缺失，由此造成处理这类数据的低效和低质量。

事实上，处理这两类数据的方式是由数据的本质决定的，王刚认为于用统计学习或者减少人工的设计，更多的是用计算和学习来驱动，因为机器的优点在乎它的计算能力，通过计算能力去搜索、发现规律。

王刚对新智驾进一步解释：过去十几年来，人工智能取得巨大的进步，深度学习被发明之后，我们通过神经网络、通过计算去搜索，找到最好的设计，从而提高研发的效率，而深度学习本质上就是计算换智能的方式。

基于上述的理解，AutoDrive 是一个以数据驱动、高度精细化、以动态行为为主的计算换智能的平台，它尝试为当下的自动驾驶困局提供另一种的解决思路，是一种新型的研发方式——能够让计算机更聪明地找到找到适合每一种场景的算法——包括参数、结构。和AutoML仅被应用于处理神经网络算法不同，AutoDrive平台能支持更多的应用，包括决策规划，定位的算法。

专访王刚：阿里自动驾驶的技术之路 | 附问答

即使是场景无法穷尽，无法完全枚举的情况下，王刚认为，尽管场景不可穷尽，但至少它是有分布的，至少在99%的场景当中，车是能够处理问题的；剩下1%的情况，系统是知道不能自己处理的，知道自己不知道其实非常关键。因为在这个情况下，人类就可以采取很多措施来规避风险。

AutoDrive的化学反应

AutoDrive 亦交付出一系列的结果，来验证其思路是否可行。

根据阿里所提供的数据：路口防碰撞策略相比人工设计提升16.5% 的效果、研发效率提升5倍、检测模型大小缩减90%、延迟降低50%、以加塞的场景为例，AutoDrive为其细化为25类场景，每一种加塞的场景都有一种针对性的算法，效果提升了18.7%。

平台背后，集中着阿里的许多资源——强大的云平台、芯片、算法、以及得天独厚的物流场景，一系列的要素构成了自动驾驶当中的化学反应。

自动驾驶需要海量的数据进行支撑，而海量的数据放在一个单独的服务器或是单独的机器上，根本无法跑起来，因此云端化是才能有足够的计算资源以及内存，AutoDrive 平台当中的自动驾驶数据的采集、回归、仿真、模型训练、测试评价等环节都需要云平台的支撑，而阿里云就是其强大的后盾。此外，AutoDrive 打通了从数据收集、数据标注以及仿真、模型训练、评价等整个闭环体系，这背后也是依靠阿里云强大的工程能力。

此外，王刚也强调了训练芯片需要引起业界的注意，现在业内认为训练芯片的性能还能够满足需求，那是基于业内还没有广泛地应用计算换智能的方式，目前芯片的一些方法限制了训练算法的大规模使用，只有解决这个问题，计算换智能才能得到真正的普及。

专访王刚：阿里自动驾驶的技术之路 | 附问答

末端物流，是阿里自动驾驶当中，最先落地的一环。在上海交通大学等国内六所高校，达摩院自动驾驶实验室与菜鸟ET实验室联合研发的自动驾驶物流车小G，已经落地了常规化的商业化运营，并在去年双十一取得了单校园单日收寄件千单以上的佳绩。

AutoDrive 是一种全新的技术理念，它首次提出了计算换智能的方式，试图更新当前自动驾驶的人工设计的做法；此外，AutoDrive更是一种从技术理念转化成为产品的自动驾驶落地实践，它试图开辟出一条不一样的落地思路，先解决99%的问题，推动整个行业的快速向前。

附新智驾与王刚对话实录：

雷锋网新智驾：是否认同SAE对L1-L5的分法吗？

王刚：目前业界对于L3都持有不同的意见，比如有人认为只给司机极短的时间反应，司机能否及时接管，是一个很大的疑虑。

我个人对于L3持有怀疑的态度，这个怀疑更多的是在技术的实现上考虑，比如汽车高速行驶当中，汽车每秒至少要行驶里程超过十米，这时候需要判断出司机在100米后需要进行接管，从技术层面上来说，是很难的。

因为很多时候交通事故发生是一瞬间的，比如加塞，就是在很短的时间里发生，但要汽车进行较长时间的预测，这是非常困难的事情。

雷锋网新智驾：什么样的划分方式更为合理？

王刚：SAE的分级，更多是聚焦在乘用车；阿里聚焦于物流车，因此对于自动驾驶物流车，可能就会把它分为简单的低速场景和一些更复杂的速度更高的场景；我认为不要纠结于分法，最关键是需要看自动驾驶能不能在某一个地方产生价值，这样是更有意义的。

雷锋网新智驾：能否简单介绍一下AutoDrive是一个什么样的平台？它能给自动驾驶带来什么样的作用？

王刚: AutoDrive更多的是一种研发的方式或基础设施。自动驾驶的数据或输入其实包括了两类的信息：一种是以传感器数据为代表的，它是对自然界信号的数字化的数据。另外一种输入是基于人类知识的确定性的表达，比如说交通规则。

自动驾驶的系统要处理这两种数据，处理这种数据肯定的方式是由数据的本质决定的。因为自然数据的信号本身是自然界产生的，数据处在非常高维的空间，但高维空间，人其实很难去理解甚至想象。

在这种情况下，还要依赖人设计一些Low-Level或Middle-Level的规则处理这些数据，我觉得是行不通。人工智能的发展，尤其是深度学习发明之后，对于这类的数据是用学习计算去逐步替代人工设计的过程。

这两种数据的特性和本质决定了自动驾驶系统一定是一个“深度学习+规则”的系统。AutoDrive平台更多的是聚焦于处理第一种数据（自然界信号数据），但它不止服务于感知，也服务于决策规划，定位等模块。

雷锋网新智驾：目前自动驾驶行业在算法层面上面存在着太多人工设计的痕迹吗？

王刚：对，比如说神经网络的超参数或网络结构，现在都是人工进行设计。

机器和人的工作方式不一样，人能够理解High-level数据，机器的优点是在于它的计算能力，是在于通过计算能力去搜索、发现规律，最好的哪一种处理方式是最优的，和人类的处理方式不一样。所以说机器智能必须要用机器的特点，而不是模仿人。

雷锋网新智驾：AutoDrive非常强调对场景精细化的处理，你觉得场景区分的设计原则是什么？

王刚：有两个原则，第一个是精细化，对场景进行分类的目的是希望把一个难的问题分解为简单的问题，如果分类粗粒度太高，仅仅是分成高速和乡村道路，其实每个子类还是很难，没有起到分解问题，所以必须要精细化。

另外一个原则是场景分类是为了促进算法的提升，不是为了做测试，必须要想清楚算法在这其中能够起到什么作用——要抓住算法最难的核心问题，所以分类的特点是动态场景行为数量非常多，包括其他交通参与者的动态行为，这样的动态行为才是自动驾驶里面最有挑战的地方。假设路上没有车，没有其他的交通参与者了，其实自动驾驶就不存在，所以分类必须要囊括大量的动态数据。而我观察到现在业界的很多分类还是以静态为主，但静态场景不是我们的关键。

雷锋网新智驾：但动态很难分。

王刚：对，这就是我们为什么要用数据驱动的方法，就是通过分析大量的数据找到哪些动态场景是一些有典型性和代表性的，也是我们关注的问题。

lei'f新智驾：您提高对场景进行分类，但场景其实是无法穷尽的，这个矛盾如何解决？

王刚：我们可以试图用反向思维来理解这个问题，假如我们不做这件事情（场景精细化分类），连极端场景是什么都不知道，这个情况下，算法怎么能解决这个问题？

场景确实会非常多或者是不可穷尽的，但至少它是有分布的。假设我们能掌握和了解频率最高的99%的场景，还有1% conner case 我们无法掌握，但在1%这种情况下，至少系统是知道自己是不能处理的，这时候人工就可以采取很多措施进行介入。

现在阿里聚焦在自动驾驶物流小车，它速度比较低，在最差的1%的情况下，我知道它可以停下来，让运营人员协助处理。

新智驾：自动驾驶汽车要理解人的意图是很难的，难在哪里？应该如何突破

王刚：汽车起阶动作比较大，运动惯性也比较大。因此，人和汽车相比，人的动作转向和速度比较慢；此外，人的运动不具有很强的连续性，所以人的行为方式改变具有更大的不确定性。

我觉得要解决好这个问题，还需要感知和决策进行联动。比如人在开车的时候，当司机不确定前方的路况是，在留下足够的安全距离。在这一点上，自动驾驶系统可以参考相应的设计。

我们现在，在处理行人信息的时候，还是不够细致，包括人的朝向、姿态这些细微的信息可能没有进行很多精细化的处理，但恰恰是这些细微信息，可以帮助我们理解人的意图。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏