黄畅博士：基于DenesBox的目标检测在自动驾驶中的应用｜大牛讲堂

本文作者：大牛讲堂

2016-11-27 11:07

导语：地平线联合创始人黄畅带来基于DenesBox的目标检测在自动驾驶中的应用分享。

雷锋网按：作者黄畅博士，地平线机器人技术联合创始人&算法副总裁，深度学习专家、前百度主任架构师（T10），长期从事计算机视觉、机器学习、模式识别和信息检索方面的研究。本科、硕士以及博士毕业于清华大学计算机科学与技术系，曾经在美国南加州大学和 NEC 美国研究院担任研究员。2012年加入百度美国研发中心，2013年参与组建百度深度学习研究院（IDL），任高级科学家、主任研发架构师。

黄畅博士在继山世光教授以及他的博士生邬书哲的演讲之后，又补充介绍了DenseBox系列物体检测算法。大家可能对这个方法不是特别熟悉，其实早在2014年的时候地平线就已经开始围绕这个方法做了各种各样的工作，不断迭代并产生了许多新的改进，这些改进在后来的一些公开的算法中，也能看到不少影子。DenseBox已经在地平线的ADAS系统中得到了广泛引用。

1.ADAS辅助驾驶系统中的具体问题

黄畅博士围绕一个具体的应用——ADAS即高级辅助驾驶系统来讲目标检测。在ADAS的应用场景中，物体检测面临的问题更加困难，这个问题并不仅仅来自于对检测精度更高的要求，也来自于检测问题本身更加复杂。不仅要识别是什么东西，还需要要做精准的定位。精确的定位能够帮助人们知道物体的距离，这对ADAS系统中的前向碰撞预警是十分重要的。

计算机视觉当中有很多的问题，比如说检测、跟踪、识别、分割，如果在这里面选一个最重要的问题，恐怕绝大部分的同学都会选择物体检测。物体检测在各种各样的应用系统当中，往往是第一步，也是最重要一步。物体检测相对于图像识别，它的难度更大，因为检测还需要对物体进行精确的定位，还是个搜索问题。在ADAS 产品当中，车辆检测是一个非常重要的问题，同时也面临巨大的挑战。以KITTI车辆检测数据集为例，比如说这个车辆，在画面当中只出现一部分，这个是truncation导致的问题；然后车辆大小差距很大，这是scale variation导致的问题；然后车辆因为视角的原因，会被很多车辆遮挡，这是occlusion导致的问题；这些都是物体检测面临的挑战。

那么如果直接尝试用Faster R-CNN或者YOLO，会出现什么样的问题呢? 首先不能很好地处理面积非常小的物体，因为这些方法，尤其是YOLO，最终在分类的时候是基于低分辨率的特征图像，这导致原图像中面积很小的物体在经过多次的卷积之后，其信息很难在低分辨率的特征图中进行保存。

2.地平线的解决方案

地平线提出的方法叫做DenseBox(V2)。相比起YOLO以及SSD，最明显的不同在于DenseBox(V2)输出预测图的分辨率很高。用DenseBox(V2)的方法，输出大小为原始图像的八分之一，即在原图中每移动8个像素，输出中就有一个对应的检测框，这就保证能够在结果中保留小的物体以及严重遮挡的物体。