复杂的中国驾驶场景，正是深度学习的优势

本文作者：李星宇

2016-06-18 09:33

导语：传统的算法的表现往往无法满足自动驾驶的要求，而深度学习非常适合在复杂场景下的自动驾驶应用。

今年8月，雷锋网将在深圳举办一场盛况空前有全球影响力的人工智能与机器人创新大会。届时雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前，我们正在拜访人工智能、机器人领域的相关公司，从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中，请联系：2020@leiphone.com。

雷锋网按：本文作者李星宇，现地平线机器人汽车业务总监，前飞思卡尔应用处理器汽车业务市场经理，原士兰微电子安全技术专家。

深度学习十分适合高度复杂场景下的自动驾驶应用，尤其与增强学习相配合，能让从感知到执行的过程变得简单。

谷歌和李世石的人机大战引爆了公众对于人工智能的关注，也让基于深度学习的人工智能成为汽车业界关注的重点，那么深度学习在智能驾驶的应用场景下有什么帮助呢?

自动驾驶最先出现在美国，而不是欧洲或者日本，更不是中国，非常关键的一个原因在于，美国的驾驶环境相对于其它地区而言，是最简单的，无论是道路情况还是驾驶习惯。这就意味着，开发一个自动驾驶原型产品的技术难度可以大大降低。

这种高度复杂的场景很难用有限的规则来定义清楚，所以传统的算法的表现往往无法满足自动驾驶的要求，而深度学习非常适合在复杂场景下的自动驾驶应用。如果这个场景足够简单的话，深度学习并不能表现出相对于其它基于传统模式识别方法的优势。

更具体一点来讲，对于非结构化数据的识别、判断、分类是它的优势所在。图像、语音都是非结构化的，而像 Excel 表格上的数据，我们称之为结构化的数据。自动驾驶所面临的环境，如果表达出来，正是非结构化的数据，深度学习可以很好地处理这种场景。

| 深度学习的前沿技术

深度学习的发展其实有很长的历史，它的原理从上世纪五十年代末期就已经出，80 年代在手写体数字的识别方面取得相当的成就，并应用于美国的邮政系统。但其真正崛起还是在十年前开始的。

这里面其实是有时代的大背景的因素，这个时代提供了深度学习两个最关键的助推引擎：大数据和高性能处理器。深度学习非常适合利用大数据提高性能，随着用于训练的数据量不断增加，深度学习的性能也得到持续的提升。

事实上到目前为止，我们还没有发现其性能提升的上限。这是深度学习目前受到关注的一个非常重要的原因。过去很难获得如此大量的数据，也缺乏足够强劲的计算平台，而今天随着物联网的发展，据获取已经不再是问题。另一方面，着单个处理器的性能进入 TFLOPS 时代，深度学习所需要海量计算已经在经济上变得可承受了。谷歌的 AlphaGo 的计算能力是当年击败国际象棋冠军的 IBM 深蓝的三万倍。要知道当年的深蓝可是大型机，成本不是一般应用可以承受的。

从 2012 年 Hinton 和他的学生 Alex 在国际上权威的图像识别领域 Imagenet 比赛夺冠以来，深度学习目前已经可以达到 97%的识别准确率，超过普通人的 95% 的识别准确率。机器视觉的识别能力超过人类，这是人工智能领域了不起的成就，而这一切在仅仅 4 年的时间内就实现，则更凸显了深度学习的潜力和业界的研究热潮。深度学习还在持续扩展其潜力，在人脸识别方面的准确率可达 99.5%以上（基于 LFW 数据库）。

很多人也会问，到底深度学习是一个什么样的东西？要用简单的话解释清楚其实是一件很有挑战性的事情，它涉及很多较为抽象的基础知识，比较形象地描述：深度学习其实是对人的大脑识别机制的模拟。

举个例子，我看到对面走来一个人，瞬间就可以判断出这个人是我的同事。眼睛获取的影像有几十万像素，需要上百万字节去描述，而大脑经过处理后，可以将它简化为几个字节，就是同事的名字。人的大脑可以非常高效地处理海量的非结构化数据，把其中的内容识别出来，用极其精简的信息去描述。这也正是深度学习的本质——把复杂信息精简地表达出来。

技术化的描述是：基于数据驱动的、自动学习要建模的数据的潜在（隐含）分布的多层（复杂）表达的算法（车云菌表示读完以后，舌头已经不好使了）。目前深度学习使用最多的建模技术是多层卷积神经网络，并建立大量的隐含层（可达上百层）。

这个技术出现已经很久了，但在此之前一直表现不好，那个时候大家都是在小规模样本下进行的，对于参数的调整非常困难。深度学习一个最大的突破就是，将参数的计算自动化，人不再进行干预，而是让它通过大量的数据学习，自己确定这个参数。

深度学习的技术也在快速演进，比如 LSTM（长短期记忆模型）的使用，赋予深度神经网络保存状态的能力。也就是，我们将赋予机器记忆的能力。

它的用途在哪里呢？拿玩游戏来说。比如射击类的游戏，目前基于深度学习和增强学习的人工智能系统可以有非常出色的表现，因为它不需要记住过去的游戏状态，而当机器玩一些策略类游戏的时候，比如星际争霸，没有记忆能力导致它无法进行长时间跨度的策略规划，与人的表现就相差甚远。

LSTM 使得深度神经网络从一个二维空间网络变成了一个时空结构的网络，即在时间尺度上也表现出深度，结果就是机器不需要从头开始认知，而是把过去和现在连接在一起，规划下一步的行动。显然，这让大型的策略类游戏成为机器的下一个征服目标。上周传出消息 AlphaGo 要在今年内对战柯洁，期待一下 AlphaGo 的下一次惊艳出场吧。

深度学习的注意力模型也是一个技术热点，它是对整个场景进行语义级别的理解，可以让机器锁定图像中我们需要关注的部分。在未来几年，这些技术可以让机器理解视频流，并将其转化为直接的语义述。这么说吧，结合上面的技术，机器可以跟你一起看电影，并分享对于电影的理解(单身狗的福利呀，一个人去电影院也不会感到寂寞了，只要带着你的机器宠物一起去) 。

总体来讲，具备深度学习能力的设备就好像是一个有生命力的机器，它会随着数据训练的过程逐步成长，它的本领是可以持续提高的，而且这种本领可以被复制到另一个设备中。

| 深度学习与增强学习双管齐下通往自动驾驶

深度学习对感知有非常强的能力，可以理解各种复杂图像的含义，但是它并不能把这种感知转化为决策能力。增强学习就是用来解决这个问题。

如果打个比方的话，增强学习借鉴了驯兽员的方法，不教动物们任何规则(当然也教不会呀)，一开始让动物们随便地做各种动作。当其中有一个动作是符合期望的时候，立即给它们好吃的，就是增强了它们继续这个动作的动力。随着训练时间和次数的增加，动物们就会真的在头脑里建立一个规则：做某个动作可以得到好吃的。因而，将其称之为「增强（reinforcement）」学习的原因。

某种意义上，这也借鉴了管理学上的结果导向的理念，有两个关键点：第一，只看重结果，不关心过程或者动机；第二，对于每一次行动，及时奖惩，强化认知。

自动驾驶的整个系统，一般来说由三个层级组成：感知层、规划决策层和控制执行层。深度学习和增强学习结合的结果，会使得感知和执行以前所未有地方式真正紧密地结合在一起，完成自动驾驶。

1、感知

感知层的任务是完成环境态势感知，这个是自动驾驶的核心环节。在自动驾驶中，任何执行动作都要以理解整个驾驶环境为前提。这里面分为两层：车外环境和车内环境。

对于车外环境，首先是多种传感器的输入，比如多摄像头、毫米波雷达以及激光雷达等，通过融合映射到一个统一的坐标系中，这些图像信息需要进行物体的识别和分类，比如车道、路肩、车辆、行人等等，这正是深度学习的优势。利用深度学习，在计算系统中重构出来一个 3D 环境，这个环境中的各个物体都会被识别并理解。

对于车内环境，是指对车内驾驶员的感知，包括其疲劳程度、驾驶意图等，这将给后面的决策控制提供决策基础信息，如疲劳检测系统在检测到驾驶员进入严重的疲劳状态后，自动将驾驶状态从人工操控转为自动驾驶。

2、局部路径规划

这里需要对整个车外环境中车辆、交通状况和行人等的意图或者在一段时间内的行为进行预测，再根据本车的状态和意图，结合前面的环境感知结果和高精度地图提供的道路信息等，规划出最佳的行驶路径，这个规划需要可以满足驾驶意图，并对周围的车辆友好、安全。

通过积累大量的数据进行足够的训练，基于深度学习的系统可以给出最优规划。当然，这种规划不能单纯依赖深度学习的预判，它必须和交通规则的专家系统，以及其它高可靠性手段结合，才可以达到实用。例如 V2X 的普及，会使得本车可以在超视距范围内，精确地获取周围车辆的位置、速度以及驾驶意图（转弯/变道）等。

3、决策控制

在路径规划确定后，自动驾驶系统需要进行本车意图决策，比如什么时候进行超车、什么时候转弯、选择什么时机进行变道是最优的等等。自动驾驶系统需要学习人类开车的习惯，学会如何在复杂的会车场景下进行操作、保持合理的车距等，更进一步地，学习主人的开车习惯，在满足安全性的前提下，尽量使自动驾驶的风格与其开车行为相适应，提供更好的用户体验，并优化自己的驾驶效率。很显然，这里增强学习是非常适合的技术。

目前，前沿的研究人员正利用深度学习和增强学习开展一些非常炫酷的功能，例如完成从原始传感器数据到实际动作执行器的直接过渡。

在今年的 CES 展上，丰田展示了一套类似的自动驾驶演示系统，在一块布有障碍并有指示方向的方形地形中，8 辆没有驾驶经验的模型车，将传感器监测到的环境信息输入深度学习系统，并将深度学习系统与油门、制动和方向输出连接。经历约 4 个小时的学习后，基本实现了零事故。

自动驾驶的测试是一个非常耗时、费钱的工作，谷歌累计的自动驾驶实际道路测试里程已经超过 100 万英里，如何更高效地测试也是自动驾驶领域的一个关键问题。

从理论上讲，我们可以用计算系统去模拟实际道路的情形，如果我们可以对道路上的各个要素进行准确地建模，并且模拟这些要素的行为，例如超车、刹车、变道。利用蒙特卡洛模拟，配合增强学习的技术，就能构建一个自主运行的系统。这个系统本身在不需要耗费一滴汽油的情况下，产生大量的模拟场景，发现自动驾驶原型的各种缺陷，并获得大量的数据。就像谷歌训练它的 AlphaGo 一样。

雷锋网注：转载请联系授权并注明出处和作者，不得修改内容。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

李星宇

专栏作者

地平线汽车业务总监，前飞思卡尔应用处理器汽车业务市场经理，原士兰微电子安全技术专家。

发私信

当月热门文章