业界 | 英特尔中国研究院认知计算实验室主任陈玉荣博士：如何拥抱视觉识别技术的低廉化

本文作者：杨文

2017-06-05 21:35

导语：英特尔中国研究院认知计算实验室关于视觉认知和机器学习方面上的研究成果

雷锋网AI科技批评论按：5月30号，在台北世界贸易中心展馆举办的台北国际电脑展上，英特尔中国研究院认知计算实验室高级研究总监陈玉荣博士以《人工智能与深度学习》为主题，分享了他们实验室在视觉认知与机器学习方面上的研究成果。雷锋网编辑对现场演讲内容做了全程记录。

英特尔中国研究院认知计算实验室:

致力于视觉认知和机器学习前沿领域的科技创新，开发视觉内容理解和视觉内容创建的领先技术，从而在英特尔平台上实现视觉数据的智能处理并提供全新的用户体验。目前已经在CVPR, NIPS, IJCAI, ACM MM等国际顶级会议上发表多篇论文，并拥有数十项相关专利，并连续两年摘得英特尔研究院全球最高奖Gordy Award (以英特尔公司创始人之一戈登·摩尔命名)。

业界 | 英特尔中国研究院认知计算实验室主任陈玉荣博士：如何拥抱视觉识别技术的低廉化

陈玉荣博士，现任英特尔首席工程师/高级研究总监、英特尔中国研究院认知计算实验室主任。目前，他主要负责领导面向英特尔智能计算的视觉认知（视觉分析和理解）和机器学习研究工作。同时他也是英特尔研究院“视觉理解与合成”全球研究规划的共同负责人，主导和推动基于英特尔平台的智能视觉数据处理的技术创新。

以下是陈玉荣博士的现场演讲，雷锋网做了不改变原意的编辑

视觉理解在未来会有很大的市场需求

当今，视觉识别技术无处不在，且成本越来越低廉。这得益于视觉识别技术在深度学习方面的不断突破。其中一个主要的推动力是视频内容在互联网所占比例越来越高，大量的互联网数据都是视频内容。预计到2019年，互联网内容中的77%将由视频组成，视觉媒体公司的数量将会继续增加，视觉内容数量也会持续增加。面对这一现象，主要的挑战在于机器如何能够识别并学习数量如此庞大的视觉内容，而这一问题的答案就在于视觉分析技术。视觉分析就是处理并理解视频内容的过程，而这一技术发展的重点在于在识别过程中如何确定视频内容中的对像并进行分类。

视觉理解的应用范畴

举几个视觉理解方面的例子，比如说，物体识别与辨认，情感识别，行动识别，语义分割，场景识别、几何布局评估等等。其中，物体与动作的识别和检测是视觉理解技术中最基础的部分，视觉识别技术要求能够识别出物体的形状轮廓，而视觉检测技术同样要求能够辨认出物体在进行怎样的活动。视觉识别中要求能识别出物体以及物体数量，而进行视觉检测时则需要更多的要求。举个例子，当人在移动时经过摄像机，识别技术可以知道有人正在经过摄像机，而通过视觉检测对它的动作进行分析，可以明白这个人是在拍照。以上的这些都是机器参与并进行识别的一部分。2012年实验室新研发出的算法使得识别准确率提高了40%，而另一项算法使得在识别方面的准确率每一年都能够提高30%-40%。在2015年，微软的研究让识别错误率降到了3.57%。这边研究人员也在努力推进相关的研究，而研究的一个主要目的就是发展视觉理解。但这其中也包含一些基础的内容，如CNN建构等。

业界 | 英特尔中国研究院认知计算实验室主任陈玉荣博士：如何拥抱视觉识别技术的低廉化

英特尔中国研究院认知计算实验室的主要研究成果

l 人像分析与情感识别

这项技术有着广泛的应用前景，可以与任何智能设备配合使用，还可以与增强实现技术配合使用。在过去的几年内，实验室建立起了一套人脸识别系统，它利用了更加科学严谨的算法，这一技术的发展基于英特尔本身，能够完成人脸识别，表情识别，建立人像档案等，我们改进了它的应用，拓展了它的应用范畴，提供了问题的解决方案, 我们同样试图完善我们的系统，让它具备情感识别功能，因为在人像识别中，情感识别功能非常重要，它对于智能计算和智能系统的建立至关重要。实验室发明了世界领先的ILC互动式人脸分析技术，它能够捕捉面部的肌肉活动，基于这个识别方法，实验室研究团队获得了2015情感识别挑战大奖，这一奖项是主要是基于音频视频内容的情感识别。共有来自世界各地的74家队伍参加了这次比赛，在多个挑战项目中，基于音频视频内容的识别挑战最有难度，因为它需要非常复杂的技术。

l 基于视觉认知的机器学习

基于视觉识别的深度学习，实验室开发了高效的CNN算法模型。这一技术非常有效，设计中各个元素在识别情感中彼此互补，在识别7种表情的任务中，准确率达到了53.8%，这得益于实验室团队在过去的四年中的努力。有人可能会问，视觉理解在视觉认知中只是一个最基础的技术，那么还有哪些是更具有挑战性的任务呢？答案是机器学习、视觉分析和多模态情感识别。这是一个更为快速的功能，是一个基于目标检测的方案。该方案十分重要，融合了各种高效的方法，灵活地应用了低端的边角，中部的主体，和高端的芯片，在一个漂亮的二维空间里呈现出一个动态的图像。因此能够直接扫描和处理目标图像。这个高效的方案可用于生成阅读指南和目标检测。这个方案有两个优势。首先，它拥有最先进的阅读指南存储功能，从指南中无法发现机器检测正在运行的工作。其次，检测工作能够更有效利用空间，花费更短的检测时间。这个方案颠覆了原本的连接金字塔，这一框架将基于地区和不基于地区的方法统一起来，弥补它们各自的劣势，突破性地解决了两个根本性的问题。首先，它的多维度目标定位功能凭借倒转的连接金字塔能够检测出不同维度的目标。其次，它有着高效的实体空间挖掘功能，以目标为网络的核心，显著地减少了物体的第二空间。目标对象跨越的维度很大，该方案呈现出来的是对象的集合，呈现出倒置的图像，不管是在精确度还是运行速度上，性能都是十分突出的。这也被今年的城市计划报道了。

l 视觉分析和多模态情感识别

在分析视频内容时，会对视觉, 说话方式, 语言, 甚至国籍进行识别, 以便于机器对于内容更好分析,这一技术让自动为图片和视频内容添加说明成为可能，也让视觉问答技术的发展成为可能，这都得益于实验室的研究成果。而在视频字幕和多模型分析方面，实验室正在从事一个更为创新且富有挑战性的任务，即密集视频字幕的研发，这一任务旨在设计出一个具有多重视觉信息和多样字幕状态的视频片段。实验室研发出了一个人工智能的密集视频字幕方案，采用了国外视频水平等级，融合多种设计方法。举一些例子，在下面这个视频中，可以制造出不同部分的描述。比方说在第一部分中，一个带着墨镜的女人正在给小孩子们拍照，而在第二部分一群人正在给马拍照，然后在第三部分小孩子们正在接受采访。另一段视频，像观众们详细描绘了这个船长的形象。这还有一个例子，它表明实验室的方案可以制造出信息丰富场景多样的视频。实验室可以设计出能够采集每一秒钟信号的模型。比方说，在前一秒一个男人正在喝酒，下一秒另一个男人在喝水，而在再下一秒，两个男人就开始攀谈了起来。程序的最后一个功能所带来的甚至超越顶级的单个视频字幕创造方案。大家可以看到展示的这个样本短视频中的底部有字幕出现。实际上研究人员可以在每个视频中制作5个视频片段。在这个视频中，一个男人正在家里做一个主题发表。如演讲或非演讲的表演形式都可以被展现出来。实验室的这一努力缩短了人们了解图像信息未知部分的距离。

总结

认知计算实验室的研发结果推动了数据处理成果的发展，通过研发创新、在多个平台间处理数据，研究人员运行了最前沿的算法，进行了机器学习的研究，获得了多个范式的视频数据研发成果。这就是我今天的演讲，感谢大家的参与。

via 雷锋网编辑整理

2人收藏

杨文

编辑&记者

AI科技评论员，微信：yeohandwin

扫描关注作者微信

发私信

当月热门文章