威富、大华、天地伟业大秀AI肌肉，成功实战演示背后仍存在不少行业通用难题

本文作者：老王

2017-06-17 19:55

导语：安防这个庞大的系统工程，需要威富集团、大华、天地伟业这类传统安防企业与商汤、旷视这类新型AI公司联手一起去探索。

雷锋网按：中国工程院高文院士曾谈到，监控数据本身就不是给人看的，而是给人工智能。

虽然近些年AI算法有着质的突破，但具体落实到安防现实场景中，准确率往往比在实验室里残酷的多。那么人工智能在安防领域的落地究竟到了哪一步？参照传统安防巨头的实战使用效果比看算法方案商的DEMO更有说服力。近日，由深圳市安全防范行业协会主办、CPS 中安网承办的人工智能安防行业应用暨实战演练论坛中，威富集团董事长张少林、大华先进技术研究院研发总监郑韬、天地伟业总工程师杨清永，深入讲解了三家安防巨头各自在AI安防方向的探索与实践。

一、安防实战中的数据挑战

硬盘公司从业者向雷锋网透露，他们生产的硬盘，每两块就有一块进入到安防行业。以北京为例，属于政府和社会公共机构的摄像头总数超过200万个，这些摄像头每分每秒都在保持录像，每天会产生长达200多万天的录像，折合成年为5000多年。所以整个安防体系，从摄像头到存储都是一个拥有极大数据量的网络。

这里提出一个疑问：数据由摄像头产生，那么这些数据是由谁消费？在当前的安防监控视频网络中，绝大部分消费者是监控中心里的工作人员，简单来说就是警方。他们在破案时会去查看很多录像，而数据生产的速度远超过数据消化的速度，这导致今天安防监控行业的一个主要矛盾：我们产生了太多的视频，可这些视频却没办法消化。

威富集团董事长张少林也谈到了传统安防面临的挑战：

威富、大华、天地伟业大秀AI肌肉，成功实战演示背后仍存在不少行业通用难题

1.被动式应用：监控人员需同时面对数十甚至上百路视频，难以及时发现视频画面中的突然和异常事件，监控视频录像一般只能用于事后取证，且录像查证过程需要耗费大量人力和时间。

2.数据无法有效利用：海量的视频数据不能进行有效的数据挖掘和深度分析，不仅使得监控系统运行效率低下，而且对视频设备和数据资源也造成极大浪费。

3.存储压力巨大：海量的非结构化数据，大部分是无用数据，给存储设备带来极大的压力，不仅浪费存储空间，增加存储成本，也不利于数据的快速检索。

目前以视频数据为核心的安防监控体系，确实给客户带来了大量的麻烦。把这些数据放在客户跟前，然后用纯人工去寻找线索好比大海捞针。但随着AI的成熟，相比于其他行业，安防行业的两大特性，让人工智能在安防领域有着很大的发挥空间。一是安防的数据基础满足人工智能的大数据特性，视频数据有两大特点：源数据信息量大、数据层次丰富。其次是，安防业务的本质诉求与人工智能的技术逻辑高度一致：

事后追查——事中响应——事前预防

大数据——深度学习——智能判断

所以整个行业都把希望寄托在人工智能上，引进AI这个“消费者”，自动把这些视频数据里面的内容和目标变成结构化数据。何为结构化数据？结构化数据就是数据能够直接表达目标的性状、属性以及身份。这种数据可以大规模去检索，大规模地分析、统计。智能化是希望AI能够变成以视频数据为核心的物联网里面，这些数据的“消费者”，这时候“消费者”的 Output 就是结构化数据。结构化数据也不能直接拿来使用，因为这些数据一旦实现了大规模结构化后，数据量仍旧非常庞大。

当人工智能把这么多的录像转变成结构化数据后，就会产生一个新的数据海洋：结构化数据海洋。如果数据没有经过很好的挖掘，那它也不是有意义的情报。结构化数据目前已经可以使用非常成熟的手段去挖掘，这个过程中会有一些非常浅度地挖掘、简单的筛选：如黑名单。检测到一辆车时，车牌号码是一个嫌疑犯车牌号，当检测到车牌号码时，这辆车就被后台预警。再比如说要检测一个人：假设我有一张逃犯的照片，当我在某个地铁站的摄像头里看到一个人长得像这个逃犯时，它可能就变成了一个有意义的情报。当人工智能产生大量的结构化数据后，会有大量空间需要去做针对应用的数据挖掘。因为以前在没有结构化数据时期，不同客户使用的摄像头和录像机都是标准设备，只要看到画面就行。它从画面里观察得到的信息如何体现到它的业务内容，这些事情需要人去做。当今天这些数据变成了结构化数据以后，在不同行业、不同场景要有大量的数据挖掘应用才能够有效地把结构化数据变成有意义的情报。而人脸、车牌均可以看作是垂直场景的针对性数据挖掘。

二、安防实战中的技术挑战

在过去十年中，指纹识别、语音识别、人脸识别、虹膜识别、车牌识别、指静脉识别已经在安防领域有所应用。

相比于其他生物识别技术，人脸识别具有独特的优势。自然无侵扰、直观易判断、简便可扩展，这些条件均为人脸识别的大规模推广应用提供了技术支撑。

人脸识别将在身份查验和布控追逃等诸多应用中发挥巨大作用，智能识别认证合一、人脸自动检测、定位、跟踪、黑名单自动比对、实现标签化存储、检索效率高、节约警力、节省时间。

天地伟业总工程师杨清永深入讲解了人脸识别算法和真实应用场景。

人脸识别可分为警用和非警用两种应用方向，警用包括反恐、刑侦、维稳，民用则是支付、考勤、门禁，二者相比之下警用是最大的应用市场。现在公安对于人脸识别非常感兴趣，因为人脸识别的确对他们工作有很大的帮助。

随后杨清永继续谈到人脸识别在这些场景中会受到影响：

一、相似面部：容易将两张相似的人脸误判为同一个人。

二、光照条件复杂：尤其在强逆光环节下，非常影响人脸识别，大多以补光的方案进行处理。

三、受多变表情和跨年龄识别：如果目标对象面部表情过于夸张，以及一个从年幼到成年脸型发生变化后，机器很难识别出来是一个人。

四、脸部大面积遮挡：普通口罩和眼镜的遮挡，较为有限，如果人脸特征遮盖太多，对识别的影响较大。

当然，上述提到这几项难题的研究成熟度也不断在加快。

其中杨清永指出的跨年龄识别方面，百度已经取得了非常好的效果。今年年初，吴恩达率队的百度人工智能在人脸识别跨年龄识别任务中以 3：2 的比分击败《最强大脑》名人堂轮值主席、世界记忆大师王峰。

这其中 Cross-Age Face Identification（跨年龄人脸识别）就是一个难度较大的挑战，在第一个节目设置中，需要识别对象的年龄跨度大概为 20 岁。在第二个节目设置中，对比小学毕业照和成年照，年龄跨度也高达十几岁，而且第二个节目设置中的人脸数达到了1500 个以上。

最终，小度的表现非常惊艳，

这里，在稀疏的数据集上学习到更好的特征，保证跨年龄的同一个人的两张人脸的距离，比不同人相似年龄的两张人脸距离小就是关键。

一般而言，在跨年龄阶段人脸识别中，类内变化通常会大于类间变化，这造成了人脸识别的巨大困难。同时，跨年龄的训练数据难以收集。没有足够多的数据，基于深度学习的神经网络很难学习到跨年龄的类内和类间变化。

百度IDL人脸团队选择用度量学习的方法，即通过学习一个非线性投影函数，把图像空间投影到特征空间中。在这个特征空间里，跨年龄的同一个人的两张人脸的距离会比不同人的相似年龄的两张人脸的距离要小。

考虑到跨年龄人脸的稀缺性。用大规模人脸数据训练好的模型作为底座，然后用跨年龄数据对它做更新。这样不容易过拟合。

将两点结合起来做端到端的训练，可以大幅度提升跨年龄识别的识别率。

得益于百度拥有两亿量级的训练数据，才能在跨年龄识别方面取得不过的效果。除此之外，比赛过程对工程要求也非常高，这些条件均是国内绝大部分公司难以比拟的。

而保证上述人脸识别准确率的关键就是深度学习。

三、安防实战中的额外挑战

大华先进技术研究院研发总监郑韬谈到，人脸识别能在近些一年呈井喷式发展，无疑离不开深度学习的支持。深度学习首先要满足以下三大条件：

大量的样本：深度学习需要海量的数据集。
高性能的计算：如果用CPU去训练深度学习算法，可能比用GPU的方式要多10倍甚至20倍的时间。高性能计算使得从业人员能够快速地训练并验证自己的样本、算法，所以深度学习必须要有高性能计算，这是和GPU的计算能力相辅相成的。
市场需求：市场上有大量样本，对客户而言，视频数据放在那边没有人去看，它就没有市场价值。真正的目的需要把这些视频价值利用起来，用深度学习自动提取视频里面的数据，获得视频中的价值。

大会期间，威富集团、天地伟业、大华股份三家安防巨头也分别进行了实时车辆识别、人脸识别的实战演练。

四、实战出色并不代表问题都已解决

车辆识别实战

在车辆识别测试中，大华股份基于 “睿智” 服务器，对活动方拍摄好的1小时路况监控视频进行检测和识别，通过 “ 车牌号、时间、年检、车辆品牌、车身颜色、有无纸巾盒”等多维度的检索，找出了三辆车的出现时间，虽然在时间上出现一个微乎其微的误差，但总体效果表现较为突出。

威富、大华、天地伟业大秀AI肌肉，成功实战演示背后仍存在不少行业通用难题

人脸识别实战

在人脸识别实战测试中，活动方提供目标人员照片，由威富集团、天地伟业进行系统布控，最终双方都准确无误的统计出目标人员的进出次数，并做出实时预警。其中天地伟业的系统可以识别遮挡的人脸，如佩戴墨镜、口罩等，此外对于各个角度的人脸都能进行很好的捕捉，系统最大可识别同镜头程90度的人脸。

威富、大华、天地伟业大秀AI肌肉，成功实战演示背后仍存在不少行业通用难题

实战出色并不代表问题都已解决

虽然车辆识别和人脸识别在实战环节非常顺利，但笔者认为，如果进行大规模和在复杂环境中使用，仍旧会存在不少问题，而这个问题也是棘手的行业通用问题。

车辆识别这一研究方向确实已经被解决了，由于车辆自身属性，它是一种非常特殊的目标，因为它有着一个独一无二的 ID：车牌号码。合法车牌号码具有唯一性，一旦把车牌号码识别出来整个问题就比较好解决。

而且目前也有不少厂商利用最近比较火热的GAN来生成大量以假乱真的车牌数据去做训练，效果非常可观。

从去年开始，车辆大数据产品已被很多厂商推出，未来也会越来越普及。这里也有一个重要的挑战，也算是机遇。道路上的摄像头分 3 种：电警、卡口、监控摄像头。所谓电警和卡口，通常是在十字路口或者高速公路的进出口上搭了一个龙门架，或者有一个装了摄像头的架台。这些摄像头分辨率很高，角度也非常合适，它可以在正面增加识别的成功率。但像电井和卡口这样的摄像头，只占整个道路周边摄像头数量的很小一部分。以北京为例，电警和卡口摄像头的数量占道路全部摄像头数量的千分之一左右。

还有更多摄像头是普通的视频监控摄像头，这些摄像头数量很多，分辨率也不是特别高，因为它们要录制视频。一般在安装的时候都是为了监控整个大场景，所以视场角较大，视场角变大的坏处就是针对每一个目标它所能够分配的像素数量会降低。

这个时候，监控视频里看到很多目标并不是很清晰：没有补光、照明不够、图像模糊现象很严重。如何在这种低质量的数据、不理想的环境下仍然把视频识别做好？这在某些方面决了定我们能否把道路监控大视频、大数据这个事情做好，这一领域的产品其实还有很多的改进空间。

其次是人脸识别。

以北京地铁站为例，北京1000多个地铁站里面平均每站都有上百个摄像头，如果这里面100个摄像头每个地铁站流通8到10万人是很常见的，可能在一些比较繁忙的地铁站有上百万人。

对于看到的每一个人都要回答“N+1”个问题，如果这个“N”是一个拥有几十万人的全国逃犯数据库，简直是天文数字。

首先做个假设，一台动态人脸抓拍机每天产生以下问题：假设每个相机每天看见1万张脸，在很多公共场所这并不是一个很夸张的假设。

假设对比库里有1万个目标，这可能对公安来说也不是一个大的目标库。如果基于该假设的话，这个相机每天要回答的问题就是一亿零一万个。如果人工智能每回答100万个人脸比对问题就犯一个错误，那么每一天在每一台相机上就会犯100个错误，也就是产生100个误报或者漏报。

刚才假设每回答100万个问题才会犯一个错误，其实也是非常夸张的假设，因为在动态人脸识别里，很多时候人的面孔角度是不理想的，分辨率也不一定很理想，光线可能也不是很好，还可能有运动模糊。

这种情况下，如果哪个公司真的可以达到百万分之一的错误率，已非常优秀。如果一个客户装了1000台人脸识别相机，这时候系统每天要回答1000亿个问题，如果人工智能回答100万个问题就会犯一个错误，那么客户每天就会收到100万个错误，也就是100万个误报或者漏报。所以人脸识别解决公共安全问题的作用仍然微不足道。

五、人工智能的征战才刚刚开始

这里面其实把大量的人工智能和少量人类智能结合起来，会产生一个较好的互补效应。

全国各地的城市已经开始拥有一定规模的人脸识别，但很快就会碰到天花板，误报会大规模上升。

企业需要通过大规模的、多模态数据整合来提升人工智能的精度。

如果单看一个单点人工智能的识别结果，它的错误率并没有足够好，就算可以做到千万只分之一的错误率，但只要问题数量过多，误导还是很多。

但是当使用更多规模的数据，比如一个人在运动时。他在轨迹路线上是否能够被反复识别，或者说轨迹所体现的行为，同时能够印证这个人的可疑性，或者说关于一个目标的多模态数据：他的车辆、消费记录、手机信号、wifi探针、社交关系，把这些不同模式的数据能够整合起来，有大量的规律、模态、组合可以把这个任务做得更好。

所以未来人工智能安防产品要有很强的大数据分析能力。而这个庞大的系统工程，则需要威富集团、大华、天地伟业这类传统安防企业与商汤、旷视这类新型AI公司联手一起去探索。

更多关于人工智能升级传统行业的文章，请关注雷锋网AI商业化垂直微信公众号：AI掘金志。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

5人收藏

老王

编辑

微信 wangyafeng123456

发私信

当月热门文章