重塑技术与商业模态，「智慧城市·视觉智能」专场回顾｜CCF-GAIR 2019

本文作者：张瑞

2019-07-16 14:29

专题：CCF-GAIR 2019

导语：7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）之「智慧城市·视觉智能」专场正式拉开帷幕。

编者按：7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日，「智慧城市·视觉智能」专场正式拉开帷幕。本专场全面围绕“未来城市级视觉AI的发展方向”这一主题展开。

其中，腾讯贾佳亚、旷视孙剑、商汤王晓刚、云从温浩、澎思申省梅、加州大学洛杉矶分校Demetri Terzopoulos、千视通胡大鹏，从产学交叉的视角，提出了新的视觉智能技术研究方向与产品化方法论。

以下是本次大会的精彩回顾：

腾讯贾佳亚：《人工智能的多模态发展》

重塑技术与商业模态，「智慧城市·视觉智能」专场回顾｜CCF-GAIR 2019

腾讯优图实验室联合负责人贾佳亚教授

人工智能的终极应用离我们还有多久？

贾佳亚在演讲中提出了这个问题，他给出的答案是可能还需要50-100年的发展路径。

而人工智能学科发展与人类智能差距之一就是“多模态信息的智能化理解”。

人造信息量带来了更大多样性，视觉、声音、符号语言、嗅觉和触觉等信息，具有无限多样性。

而多模态人工智能还存在不少基础难点：第一是数据模态多种多样，包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据；第二是多模态数据的不对应，如从图像到文字，从文字到图像，都是“一对多”的过程，会有多种的描述和呈现；第三是多模态数据的融合，一个软件或算法的进步较为容易，但多个算法一起，难度将几何级上升，如“告诉机器人拿桌子左边的瓶子”，会经过语言模型、三维建模、自动寻路、图像分析这些步骤；第四是多模态监督，“如何告诉机器人拿错了”“哪一步骤拿错了”也是目前的难点。

而要解决这些多模态信息的难题，贾佳亚提出要更好研究嗅觉、味觉、触觉、心理学等难以量化的信号问题，通过多模态数据使得计算成为可能，进行协同学习、用一个资源丰富的模态信息辅助另一个资源贫瘠的模态。

多模态人工智能问题的解决，就会是人工智能更多落地的未来。

商汤王晓刚：《从学术到产业化的人工智能》

商汤科技联合创始人、研究院院长王晓刚

王晓刚则回顾了人脸识别从学术到工业界逐步的进步，以及人脸识别在智慧城市、智慧通行、手机、AR、游戏等具体场景的应用。

王晓刚提出计算机视觉的研究有几个重要的层次：

一是基础层，包括芯片、AI超算平台、深度学习平台、AI平台等基础方面的研究，目前西方尤其是美国领先；二是应用层，其中中国有很多丰富的场景，能给予反馈，是我国擅长的领域；三是工具链层，未来需要面临的课题是如何让普通的开发者、公测人员根据工具链迅速开发出人工智能的解决方案，使其生产力释放出来。

而商汤以往、现在以及未来持续会做的就是，在算法精度不断提升的前提下，拓展智慧城市从1到N的业务边界、促进2D的感知到3D世界的落地，以及现实到虚拟现实的融合。

2014年商汤团队发表DeepID系列人脸识别算法，使其全球首次超过人眼识别率，人脸识别超越肉眼突破工业应用红线，之后随着技术的持续进步，业务也不断突破边界，从相对简单的1：1识别，向1：N进发。

王晓刚列举了数据，在门禁、闸机等通行场景中，一栋大楼或公司有1、2万人的数据库，智慧城市的数据库可能达到几十万的量级。商汤所做的就是从几万到几十万人中识别和分析所需要找的人与物。随着场景不断的拓展，王晓刚认为人脸会逐渐成为人的身份标志。

另外，在3D的应用上，商汤的3D人脸识别方案也已经在很多手机上得到应用。王晓刚现场展示了手机上通过3D摄像头拍摄的人脸、物体以及人体图像进行3D重建，未来2D的相册还能拓展到3D相册。人体的跟踪上也从2D延伸到3D，目前商汤已将其应用于体感游戏。

云从温浩：《泛在智能城市下的人机协同平台》

重塑技术与商业模态，「智慧城市·视觉智能」专场回顾｜CCF-GAIR 2019 云从科技联合创始人温浩

人工智能如何落地？

温浩提出一定要构建“感知、认知、决策”的智能经济的AI闭环。创业公司必须感知、认知、决策环节都涉及。

而场景上，可分为边缘场景和云端场景，但边缘场景和云端要根据场景进行智能的分配。

边缘端和终端承载需要本地实时响应的推理任务，并独立完成数据收集、环境感知、人机交互以及部分决策控制。边缘端如自动驾驶场景中，断网下进行独立的本地处理；智能安防中，要对超大数据量本地处理；移动互联网场景，要保证低功耗和数据安全；智能家居和智能制造场景，要求异构和实时响应。

云端则负责承载智能数据分析、模型训练和部分对传输带宽要求不高的推理任务。

温浩认为，目前AI还并不成熟，很多产业中的需求也很多样。而为了解决这一问题，应该实现“人机协同”。

人机协同有几个阶段，第一是要做人机交互，首先让机器知道你是谁，这就是为什么要先做人脸识别的原因。

第二步做人机融合，如银行的产品经理，只能设计十几种产品，但基于大数据和AI，他可以针对每个小微企业设计成百上千种AI的金融产品。

然后是人机共创，未来就可以创造一些新的场景、新的业务，新的服务、新的流程。如零售门店可以进行二次陈列，和精准引流，这就是人机共创。

旷视孙剑：《深度学习变革视觉计算》

重塑技术与商业模态，「智慧城市·视觉智能」专场回顾｜CCF-GAIR 2019

旷视首席科学家孙剑

旷视首席科学家孙剑从视觉智能、计算机摄影学以及视觉计算等方面介绍了计算机视觉研究领域的变革。

孙剑也回顾了深度学习发展的历史。他介绍道，深度学习发展到今天并不容易，过程中遇到两个障碍：

第一，深度神经网络能否很好的被训练，在今天深度学习成功之前被很多人怀疑。相比传统的机器学习理论，深度学习神经网络的参数要比数据还要大10倍甚至上百倍，如何很好地学习出来，很多人并不相信。

第二，当时的训练过程非常不稳定，论文即使给出了神经网络训练方法，但其他研究者很难把结果复现出来。

这些障碍直到2012年开始慢慢被解除。

孙剑认为，在很多实际中，深度学习和传统机器学习最大的差别，就是随着数据量越来越大，用更大的神经网络就有可能很大程度上超越人类的性能。

而具体到计算平台上，包括云、端、芯上的很多智能硬件。目前的一个趋势是如何自适应地根据计算平台做自动模型设计，最新的方式是用权重分享的方式。

在这方面，旷视提出了Single Path One-Shot Nas的新方法，分为两步：第一步是训练一个SuperNet，是一个超网络，包含任何想搜索的子网络，先训SuperNet所有的权重；第二步是搜索sub-nets子网咯，好处是第二步不需要训练，非常高效，训练时间是正常训练时间快1.5-2倍，可以得到非常好的效果。目前在多个测试集上得到了领先的结果。

此外，为了构建核心技术，旷视还打造了自研的人工智能框架Brain++，包括具备多中心、强大算力的Brain++ Infrastructure，公司全员使用的深度学习引擎Brain++ Engine，以及整合最新模型搜索的AutoML技术；同时，旷视还有人工智能数据管理平台Data++，借助算法辅助数据清洗和标注。

澎思申省梅：《后深度学习时代的智能视觉技术落地》

重塑技术与商业模态，「智慧城市·视觉智能」专场回顾｜CCF-GAIR 2019 澎思科技首席科学家申省梅

作为人工智能领域崭露头角的公司，申省梅介绍道，澎思科技从传感器-图像处理到3D几何，从机器学习到深度学习，到增强学习，从监督学习到半监督、无监督学习都有布局，团队拥有计算机视觉全栈技术，并在人脸检测和识别、行人检测和跟踪、行人再识别、车辆识别、自动驾驶、移动操作机器人等多项大赛中拿到冠军。

在限制条件下的人脸识别已经取得了很好的成绩，但对于如何提高非受限条件下的动态人脸识别效率，申省梅认为除了在人脸识别技术上不断提高外，还要从源端着手，采用图像增强的方法，用AI图像增强，去除运动模糊、降噪、去抖动、去雾、去雨、去云等。

另外，在视觉的落地上，申省梅认为应该坚持“以商业价值为导向的算法开发”。用“最有效的算法+最经济的软硬体”解决客户的刚需，更重要的是，算法-软硬件变动更新速度，要快速对接客户的不同需求，形成敏捷而有价值的运营模式。

而要得到一个好的模型也并不容易。申省梅判断，获得最佳视觉模型最简单的规则是，足够多的平衡数据、足够好的数据标注、足够深的网络。随着大量数据的生成，半监督无监督的探讨有所突破，计算机视觉的未来发展十分乐观。随着工业界对计算机视觉的持续青睐，众多企业将结合实际应用场景来剪枝优化迁移，不断开拓新的应用领域，人工智能行业的发展还远没有到巅峰，还有众多的落地机会。

英国皇家科学院Demetri Terzopoulos：《视觉智能的未来》

重塑技术与商业模态，「智慧城市·视觉智能」专场回顾｜CCF-GAIR 2019

三院院士 Demetri Terzopoulos

Demetri Terzopoulos讲解了虚拟视觉的应用，及其在智慧城市中起到的作用。Demetri Terzopoulos认为，虚拟视觉实际上包含了各种组合以描述感觉，计算机图形、计算机视觉都是视觉计算的领域。

他所做的一项重要的工作就是虚拟人类生命的模型，然后基于物理的虚拟世界或现实的计算机图形，渲染这些世界，用虚拟事实表现视觉。

Demetri Terzopoulos以其以往的实验为例，这些实验中包括对人体的肌肉和运动的模拟，及体感游戏中对环境和游戏角色的模拟。这些虚拟视觉还能应用于模拟多个摄像头、对多个人体运动的追踪，体现摄像头采用怎样的拍摄角度对人进行拍摄，多个摄像头间如何形成更好的联动。

虚拟视觉的优势在于，可以通过加速设计测试和科学方法应用于这些系统，从而对现实进行演示。一直以来，虚拟系统正变得越来越现实。从长远来看，虚拟现实应该和我们生活于其中的物理现实不再有区别。

Demetri Terzopoulos还对未来的工作进行了展望，未来他们将构建物理传感器网络，将算法移植进去，将它们部署到现实世界中的物理网络中，当然这还需要更好的虚拟摄像机。

而未来，更大的传感器网络可能在天空中，无人机等，甚至整个城市。

千视通胡大鹏：《千视通AIoT智慧社区无感通行》

千视通联合创始人兼CTO胡大鹏

又一企业杀进了智慧园区的市场。此前提出了“AIoT场景融合战略”的千视通胡大鹏介绍道，千视通目前正专攻三维人脸，同时将Face-ID和ReID融合起来，打造“无感通行”。

二维视觉有什么问题？胡大鹏提出，二维人脸主要在非约束条件下存在问题，在角度比较大，强烈照度的情况下准确度会不停下降，如侧光、逆光、暗光等都会导致算法不准。

而三维人脸的应用优势，首先是可以防伪，适合对安全、保安标准比较重要的行业，然后是光线、不同的人脸照度，以及化妆问题，都能有更好的解决。

什么是无感通行？胡大鹏提出希望利用不同摄像头提取出关键的车、人、物等，将其都关联起来。例如人进入园区，通过闸机，去哪里都可以用人脸+ReID整合进来。通过每个时间段的轨迹，分解出每一个人、车、物的属性，可以做到无感出入、无感考勤、无感追踪、无感布控等，在园区、社区、校园、零售等不同的场景应用。

「智慧城市·视觉智能」专场结语：视觉落地，去伪存真

计算机视觉无疑是AI领域最热门的研究与应用方向，目前视觉智能技术已落地至手机、家居、交通、零售、安防等各个城市户外场景与城市户内生活当中。

但一方面智能视觉，在向着准确率高歌猛进，另一方面，准确率在多大程度上转化成了应用的效益，仍是个问题。

而计算机视觉起家，经过打磨的AI企业们，也开始走自己的差异化路线以图破局。

智能视觉企业们正逐步由以技术驱动业务，拿“锤子找钉子”的状态演进成以“业务”为重心的发展模式：左手“技术的诗和远方”，研究更前沿的算法，使得AI具备更强大的识别精度和认知能力；右手“经营的田间地头”，让视觉产品在保证高精度的前提下，大幅降低前期研发与后期运算成本。

脚踏实地，仰望星空，智能视觉企业们正探索更远大的方向，AI掘金志也将再度站在算法、工程和产品的最前沿，推动行业认知升级。

我们将会在本次峰会后，在「AI投研邦」上线CCF GAIR 2019峰会完整视频与各大主题专场白皮书，包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。「AI投研邦」会员们可免费观看全年峰会视频与研报内容，扫码进入会员页面了解更多。峰会期间专享立减399元福利，可进入页面直接领取，或私信助教小慕（微信：moocmm）咨询。（最后一天50个名额，速抢。）雷锋网雷锋网雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏