元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

本文作者：李安琪

2020-04-03 09:48

导语：元戎启行的深度学习网络模型HVNet在3D物体检测速度和精度上都有显著的提高。

自动驾驶作为一个技术前沿阵地，业内人士一直在不断探索与突破。

雷锋网获悉，近日，L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR 2020收录，论文题为“HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection”，介绍了元戎启行的深度学习网络模型HVNet。

与多种方法相比，HVNet在3D物体检测速度和精度上都有显著的提高。

CVPR（Conference on Computer Vision and Pattern Recognition，即 IEEE 国际计算机视觉与模式识别会议）是全球计算机视觉顶级学术会议。今年，CVPR共收到6656篇投稿，只有1470篇论文被接收，接受率仅有22%，创下了CVPR十年来的最低接收率。

自动驾驶是人工智能的一个关键应用领域，而深度学习正是实现人工智能的一项主流技术。深度学习包含训练和推理两大过程，两者都围绕着深度学习的基本要素——深度学习网络模型（以下简称模型）展开。训练指的是对模型进行训练，为模型（的不同节点）进行分配加权，推理则指的是利用训练好的模型对全新的数据进行推理判断、得到正确答案的过程。答案的准确度，与模型和推理直接相关。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020 深度学习示意图

L4级自动驾驶的深度学习模型

在自动驾驶中，深度学习用于感知车辆周围物体，从而为车辆决策和控制提供判断数据。3D物体检测则是当前感知模块至关重要的一个环节。而为了保证自动驾驶的安全，3D物体检测最重要的工作，就是平衡好精度以及耗时，让系统能迅速识别，实时响应。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

3D物体检测

针对3D物体检测，元戎启行提出了一种新的基于点云的3D物体检测统一网络模型：混合体素（体积像素，是数字数据于三维空间分割上的最小单位）网络——HVNet，通过在点级别上混合尺度体素特征编码器(VFE)，得到更好的体素特征编码方法，实现了3D物体检测速度和精度上的提升。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

KITTI测试集上的速度-精度对比图，其中O为HVNet

元戎启行在KITTI数据集上进行了实验验证。KITTI数据集是目前国际上最大的适用于自动驾驶的计算机视觉算法评测数据集之一，涵盖城市、住宅区、道路、校园、行人等五大场景，是检验L4级自动驾驶感知算法的最重要的评估方式之一。

从下图中可看出，在KITTI数据集的实验中，HVNet取得了自行车类检测困难和中等模式的第一名，汽车类检测中等模式的第六名，排名超过Apple、UberATG等企业。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

HVNet 在KITTI 测试上的BEV成绩（自行车，2019年11月）

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

HVNet 在KITTI 测试上的BEV成绩（汽车，2019年11月）

元戎启行感知技术总监曹通易表示：“在多类别物体检测中，很多方法通过训练多个模型来检测不同的类别，我们仅通过单一的网络完成输出。在KITTI的多类别检测任务中，我们取得了当时最好的mAP（平均准确率），同时保证了实时的效率。相比于PointPillars、Second等算法，HVNet在效率也有很大的突破。”

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

KITTI val数据集中BEV上的不同体素设置下结果对比

高效的实时推理引擎

有了高性能的模型，自动驾驶的感知只成功了一半，只有完成了高效、准确的推理，自动驾驶系统才能准确判断周围物体。为了更好地匹配HVNet，元戎启行还研发了推理引擎DeepRoute-Engine，针对HVNet的自定义算子和网络结构，做出更好的计算资源上的优化，让自动驾驶算法能够在低成本、低功耗的硬件平台上高效、稳定地运行。

相比主流的深度学习框架中的推理引擎，DeepRoute-Engine不论是对简单的卷积为主的图像模型还是对多传感器融合的模型，都有出色的优化效果。对复杂的多传感器模型反而有更高的推理速度。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

DeepRoute-Engine和主流计算框架推理速度对比

对于推理引擎来说，最重要的性能指标就是耗时。因为只有在推理引擎实时地推理出车辆周围物体所属的种类和特征的情况下，才能让系统有足够的反应时间，实现车辆的实时控制，确保自动驾驶汽车的安全。因此，产业上也更关注推理，许多硬件和软件方案的重心都放在了推动更快的加速中，如英伟达针对自动驾驶推出的Xavier芯片，英特尔旗下的Mobileye推出了EyeQ 5等。

而在兼容性方面，DeepRoute可支持英伟达、英特尔、AMD等品牌的计算平台。DeepRoute-Engine还能很好地适配PyTorch、Caffe、TensorFlow等深度学习框架，不同的框架训练出的模型，都可使用DeepRoute-Engine进行推理。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020

推理引擎兼容性对比

DeepRoute-Engine还支持实时数据类型转换推理，在部署一套模型时，可在运行时调整精度，减少内存空间占用，提高部署效率。DeepRoute-Engine支持自定义层融合和用户插件，有较高的可扩展性。

但由于自动驾驶的实现，不仅需要过硬的AI技术，更要控制好成本和功耗，才能真正实现产业化落地。

目前行业内对推理速度的最低要求是10fps。但对于低功耗计算平台产品来说，这是一个很大的挑战。以PyTorch等主流框架为例，当它们在低功耗的计算平台产品上，用复杂的模型进行推理时，计算速度一般低于10fps，无法满足这一要求。

元戎启行则借助自研的高效推理引擎，很好地解决了这一问题。

2020年1月CES期间，元戎启行发布了其新一代计算平台解决方案——DeepRoute-Tite。该平台只有砖头大小，以45W的功耗运行了自动驾驶所有相关算法。得益于元戎启行自研的高效推理引擎，算法移植到这一平台后，系统仍能实时、精确地识别周围障碍物，实时响应，以接近城市道路最高限速的速度行驶，灵活完成红绿灯识别、转弯，避障等操作。

元戎启行使用低功耗计算平台进行自动驾驶路测视频（2倍加速）

目前，整个自动驾驶行业都在往小型化、嵌入式方案发展。除了传感器的小型化，更关键的是替换车辆后备箱内原本体积庞大的高功耗计算平台。

元戎启行深度学习网络模型和推理引擎让“砖头”跑出L4 | CVPR 2020