AIR 015 | 微软亚洲研究院常务副院长芮勇：计算机视觉从感知到认知的长征

本文作者：恒亮

2016-08-12 15:12

导语：微软亚洲研究院常务副院长芮勇眼中，计算机视觉的发展史。

作为本届GAIR大会重量级的嘉宾之一，同时也是微软亚洲研究院常务副院长，CCF常务理事，IEEE、IAPR和SPIE等国际一流学术组织成员的芮勇博士，在今天下午进行的“机器学习大浪下的巨头们”这一大会议程中，为我们带来了关于计算机视觉领域的一些最新观点和思考。

芮勇博士的报告主要分作三个部分：第一部分阐述了计算机视觉领域在过去50多年的发展，并指出在当下的2016年我们尚处在一个从感知到认知的重要分水岭阶段，并且还没有完全步入认知的层面；第二部分分享了未来计算机视觉领域可能的发展方向；最后告诉我们计算机视觉完全从感知走向认知的3点关键因素。

50年的历史

在第一部分中，芮勇博士表示，对于只认识0和1两种状态的计算机而言，计算机视觉在过去50年主要经历了以下4个阶段：特征提取、图像标注、图像理解和图像的深度理解。

1. 特种提取是指从一幅图像中，找到主要的特征像素并提取出来。例如在一张白纸上写了一个字，那么“文字”这个像素就是特征像素，是需要提取的。

2. 图像标注这一点也分成两个小的部分。第一部分是图像分类，向计算机输入一张图片，计算机要能够分辨出图中的内容是人还是物体。第二部分是像素级别的分类，计算机能够从一张图片的像素级别中分辨出哪个像素属于人，哪个像素属于物体。

同时，芮勇博士也提到了深度学习对于图像标注的重大影响。在2012年引入深度学习之前，图像标注的错误率高达28.2%，而自从引入了深度学习网络分析模型，机器标注图像的错误率已经从2012年的16%（已经低于2012年之前）降到了2015年的3.5%，而神经网络分析模型的规模也增加到152层，这在全世界范围内都是领先的。

3. 图像理解是指，输入计算机一张图片，计算机要能自动生成一句话的自然语言描述。例如一张合影，计算机或许会输出：这是一张两个人的合影照片。

4. 图像的深度理解是指，计算机不但能识别出图中的内容，还能知道图中内容的具体情况。还是用合影为例，计算机这时能可能会这样描述：这是奥巴马和习近平的合影。芮勇博士表示，这一点目前是完全可以做到的，目前计算机涵盖的认知范畴是全球大部分名人和著名景点，比如白宫和天安门广场。

未来可能的发展方向

在回顾完发展历程之后，芮勇博士还从以下几个角度分享了他对于计算机视觉研究下一步发展的一些想法。

1. 图片的隐含深意。例如一张大象追奥巴马的图片，除了能输出上文提到的自然语言描述之外，未来计算机可能还能理解图像的内涵意义。例如大象和奥巴马的象征意味，以及美国大选中民主党与共和党的相互竞争等。

2. 视频的理解。例如输入一段视频给计算机，计算机同样可以输出一段自然语言的描述。芮勇博士表示这其中的难点在于，视频除了图像中横轴纵轴的二维描述之外，还加了一条时间线的三维描述，因此对于数学建模和数据分析都造成了与图像识别完全不同的研究方式和难度。

3. 利用图片聊天。例如输入一张可爱小狗的图片，计算机可能回复：萌萌哒。

4. 利用图片讲故事。例如将来计算机可能根据输入的若干图像，自动生成一个扣人心弦的精彩故事。

3个关键因素

最后芮勇博士为大家揭示了计算机视觉完全从感知走向认知的3点关键因素。

1. 机器学习算法的进步。业界需要更先进的算法和更深度的分析模型来助力计算机视觉的进一步发展。

2. 各个垂直领域的科学家和从业者合作。除了计算机视觉自身领域的发展之外，将计算机视觉与各个垂直领域结合，在工程和商业中真正发挥作用，推动计算机诗句的纵身发展。

3. 高质量的海量数据。在大数据时代，高质量和海量的数据作为一切研究的基石也至关重要。

最后芮勇博士总结说，这三点如果都能做到了，机器学习算法本身的进步，研究学者和垂直领域的专家们越来越多地合作，同时优质的数据集也越来越多，那么我们就能从感知正式走向认知。

以下是现场实录：

非常高兴下午有这个机会跟大家聊聊计算机视觉，我的题目叫《计算机视觉从感知到认知的长征》。

我想回顾一下计算机视觉过去50年的发展。今年的2016年也是人工智能这个词被创造出来的第60年，之前其实没有这么一个词，60年中国人叫一个轮回，轮回总是会有大的飞跃，我们看看2016年人工智能有什么大的飞跃？

人工智能从最开始有很多的领域，我本人花的时间最多的是计算机视觉，人有各种感官，但人70%的信息是靠人的眼睛来看到的，计算机视觉也是人工智能当中一个非常重要的方向。

最早大家说能不能可以让计算机可以看到，像人类的眼睛可以看到一样。过去的50年的发展，我们可以看到，是从社群到处理到Recognition到理解，就像我们画一幅画一样，从最早的线条，到一定的灰度，到最后的全彩色的，这50年都做了些什么事情？我们可以看一看，我想用这张图片跟大家分享一下。

人看一张图片觉得很简单，我一看觉得这是一个人、这是一张桌子、椅子，人一下就理解了，计算机看到的很难，因为计算机看到的就两个东西，不是0就是1，让计算机看到图片里包含什么内容非常困难。这50年走过了很多路，从最早的特征提取，比如说这么一幅图，它的特征有线条、有转角，有色彩，之后第二步比这个更前进，叫标注。这幅图比如说是一个户外的场景，里面有人物，比这个更前进一步，叫Annotation。比这个再往前走一步，我们对图片的理解就是Captioning，我如果把这个图片给计算机去看，它能不能生成一段我们人类看得懂听得懂的文字，比如乔治和他的父亲在迪士尼乐园在玩一个游戏，这么一句话，这就更难了。比这个再难一点，我给计算机这个图片，我问计算机几个问题，比如说这个图片里面坐在前面那个人穿什么颜色的衣服？计算机这时候要知道什么是人，衣服在哪里，它要回答是红色的衣服，这就更难了。比这个再难一些的就是我们小时候都上过课，叫做看图认字，看图说话，计算机看到一幅图之后，能不能生成一个故事，这就是这50年我们大家孜孜不倦想做的事情。

我们来回顾一下这50年是怎么走的，第一步是特征提取，计算机看到的除了0就是1，当然有些像素更加重要，哪些象素作为提取这很重要，比如这张图，每一个像素的重要性是不一样的，画圈的地方是我们想把它作为特征的一些地方。再往下看，第二步我们想给一个图片进行标注，进行标注的话，我们就想知道，比如说图片里面有两个人，他们是在户外的活动，这件事情怎么做？我们来看一下是怎么做的。

这个就是很重要的一个部分，有三个部分，第一个部分是图片的分类，这个时候我们回答的是什么问题呢？这张图片里面是不是含有一只小狗。第二个就更难一点，计算机还要告诉这个小狗在什么位置，把它框出来。第三个更难，每一个象素能不能告诉我这个像素是属于这个小狗身上的像素还是电视机上的像素？一个比一个难。过去的这十年，还有很大很大的发展，我们来看。

第一步，图象分类，图象分类在计算机视觉里有一个全球性的比赛，叫ImageNet，里面有120万个训练样本，有10万测试图像，1000个类别，你让计算机看没有见过的图片，帮你分出来这是1000类里的哪一类。

2012年之前，深度学习没有引入计算机视觉之前，大家看看错误率，靠右边的是2010年的错误率28.2%。2012年的时候，深度学习第一次被用在图象识别，错误率一下降到16.4%，每年的错误率越来越低。2014年有个斯坦福的博士想挑战一下。我如果告诉你一千类里有两百来种狗的不同类型你就知道有多难了，我只认识四五种狗，但要做到上百种狗都能对，非常困难。斯坦福博士关在屋子里训练了几个月，他的错误率是5.1%，去年降到了3.5%，第一次超过了人类的错误率。

2012年深度学习第一次引入计算机视觉，当时有八层，它的错误率降低。再往下走，2014年到了19层，错误率继续降低，到2015年，我研究院的同事做出了152层的极深网络。大家觉得往下做没什么了不起，其实想做得深很难，在2015年以前，全球没有几个团队能做到超过20层，因为是训练不下去的，所以这是一个非常好的工作。用神经网络，不仅是每一层延到下一层，有的之间还可以转跳。

这是图片的分类，解决的问题是图片里面是不是有只小狗。更难的是这只小狗在什么地方，物体的检测。七八年以前，全球能做到最好的程度也就是这样，今天通过深度学习的方式已经可以做到这样的水平。你看最左边的女士她只是把胳膊肘露出一点，腿露出一点。再往下看，这个大公共汽车后面的司机我们解释说这是一个人，现在已经达到这样的水平，跟人类的视觉水平已经不相上下。

比物体检测更加难的是在图片的每一个像素，像素是属于小狗还是属于屏幕？我们可以看一看今天用深度学习的方式，也已经可以把像素级的图像分割做到这样的水平。

大家可以想一想，如果能做到这样的水平，今后无论是无人机还是无人驾驶，很多应用都可以做了。

这是我刚才提到的第一个问题，就是对物体的识别，比这个更难的是我们是不是理解了，计算机是不是理解了某一个图片。我们看一看。Beyond远远超过了计算机视觉。如果只是用最近的方式去做搜索，其实它并没有理解，比如说你的一个输入是靠左边这个人，它就把右边这几个从搜索引擎返回，这个并不是理解，这还算不上理解。真正的理解是什么呢？我给计算机看到有这么一幅图片，它能生成一句话，说本和他的爸爸在迪士尼乐园玩。

我如果让计算机看这么一幅图（一个人打网球的照片），下面我想跟大家做一个小的互动，在这个具体的问题上，我们能不能超过图灵测试，有两句话：第一句话叫做一个人在网球场上手拿着一个网球拍。第二句话：有一个人在网球场上打一场比赛。大家觉得这两句话哪一个是人写出来的？哪一个是机器写出来的。

（大家举手后显示比例基本上50%比50%）下面我们看看到底哪个是人写的哪个是机器写的。上面的是机器写的，如果在座的诸位是50%的话，已经可以通过图灵测试了。

我们再试一题，上面停了一辆自行车，有两句话，一句话是小河边停了一辆自行车，第二句话是水体旁边有一辆自行车停在。哪句是计算机写的？

（现场大部分人选择第二句）现在大不部分人认为下面一句话是计算机写的。我们来看看，下面是人写的。我们又一次通过了图灵测试。

这是给计算机看一个图片，它生成的这么一句话，比那更难一点的是前一阵奥巴马一家带着小孩来访问，我们如果让计算机看到这么一幅图片，它如果只是告诉我有几个人在拍照也没意思，它如果有本事告诉我说，Sasha奥巴马、米歇尔奥巴马，彭丽媛，我们大概前50万名人都能认出来是谁，并且我们生成了一句话说，这几个人在故宫前面拍照，已经可以达到这样的水平。

再往下看，具体算法可能没有那么多时间去讲。但基本上是从名人到具体的物体，通过各种深度学习的方式能生成出这么一个自然语言的话。

我们再往下看，这就是整个的流程，算法等等就不用花时间去看了。已经可以让计算机看到一个图片，讲出一句还挺像样的话，下面还可以往哪里走，我觉得至少四个方向可以走。第一个方向是说在语义的层面上，Go higher，我们能不能想到一些没讲出来，但它能推理出来的意思。第二个我们给它看一段视频是不是也能讲出一段话，Go longer。第三个是它能跟我聊天。第四个我可以问他具体问题，他能回答。

第一个，Go higher，如果我给计算机看这么一幅图片，今天能做到的水平就是这样，有一群象，前面有一个人，这是我们之前可以做到的水平。今天可以做到的水平，因为有实体，我们可以说一群象在奥巴马的旁边，因为我们可以识别出这个人是奥巴马。我们希望做到什么水平？它引申的一些含义，我们人来看到这个可以想到很多引申含义，今年正好是美国总统大选年，民主党是驴，奥巴马是民主党，共和党是象，它的意思是说奥巴马被共和党的一些竞选者在追赶，我们今后如果能生成这样一句话，我们对图片的理解真是到了一种认知的水平，但还没有做到。

第二个，Go longer，我们给它看视频，它也能生成一句话，当然这里面有很多的算法，具体算法我就不一一介绍，基本上是用一个深度学习的网络，然后目标函数里面由两种叠加在一起的新的水平。

这是我提的两个方向，第一个把它的隐身含义讲出来，第二个是把视频也能够用文字的形式表达出来。第三个我想提的是，比如说我们今天跟小冰聊天，我们敲一段文字，它也能回一段文字，我们给它上传一张图片，它是不是也能跟我们聊呢？今天它也能了。它今天可以做到的水平是，如果我上传了一张图片，它会说小眼神太犀利了，这就像人在聊天一样，已经可以做到这样的水平。比如说你想秀秀六块腹肌，它会跟你说大叔真牛。不仅仅是文字的聊天，图片也可以聊天，这都是得益于我们对计算机视觉技术的发展和深度学习的发展。

第四个方向，稍微花多点时间讲讲，我觉得这是很有意思的方向，不仅对科研、产业界来说都很有意思。叫做Visual Question Answering，我问计算机一个问题，什么东西在自行车筐里？我们希望它的答案是说狗，但是想做到这一点很难，你首先知道自行车在哪儿，筐在哪儿，筐里有什么东西，都不容易，但今天我们有技术，能够把这个做到。怎么做到呢？我稍微提一下这个算法。

四个部分，两个输入，第一个是你问的问题是什么，你问的问题是说自行车的筐里面是什么，这是一句话，这是第一步。第二步是你同时还给计算机看一个图片，有个Image model，我们用深度学习的方式把两种不同的模式做两次之后，就知道和这个问题最有关的部分就在亮的这个部分，这就是和问题发生关系的地方。如果知道这个区域和这个问题发生关系就有很大的可能性知道答案。

还有更多的几个例子要跟大家分享，比如我们让计算机看这幅图片，问：在一片空旷的海滩上，两个蓝色的椅子中间那是什么物体？这是它答案的过程，第二层聚焦到伞，一把太阳伞。还有更多的例子，在一片泥泞的土路上，什么东西在拖着马车？答案是马在拖着马车。右边那个，筐的颜色是什么？答案是红色的。右下角这个女士戴着两只红色牛的角，答案是说红色的，它知道牛角的颜色是红色的。这些都是我们今天通过计算机视觉的方式达到问题的回答水平。

刚才回顾过去50年计算机视觉发展的历程，从最早的特征提取，有直线转角，直到说这是一个户外的场景，场景里面有人，到说这个图片里面这个人的名字是什么，到生成一句话来描述这个图片，到最后我刚才提到的Visual QA，还有很长的路要走，就是我们看到图能讲出一个故事来，这是我们今后要做的事情。

我今天的题目叫《计算机视觉从感知到认知的长征》，长征大家也知道，最早是从江西的瑞金开始长征的，很具有里程碑的事件就是遵义会议，最后很成功的走到陕甘边区，今天的计算机视觉也是一个长征，但还没有到达陕甘边区，今天2016年我们取得了很大的成就，很像遵义会议取得的成就，但今后还有很长的路要走，这就是长征的一部分，怎么样最后到达陕北，至少三个方向可以想。第一个是计算机学习算法的本身。今天“深度学习”这个词很热。今天因为有了好的算法，深度学习算得很成功。

第一块很重要的能让我们到达陕北的就是计算机学习算法。第二个就是我们需要一些计算机的科学家，我们也需要和一些垂直行业的朋友们一起来做这件事情，比如我们是和做金融的朋友们，就像上午杨强讲的，我们能预测股票市场。我们如果和懂医疗的朋友来做，可不可以做出更精准的医疗，如果和植物所的朋友来做这件事情，是不是可以做出一个用手机拍照任意的花，或者一个树，我就知道这个花叫什么名字，树叫什么名字，最早从哪里来？等等。我想说这个的目的就是除了机器学习的专家之外，还要和很多垂直行业领域的专家一起合作这件事情。

第三个，右下角这个圈我觉得也一样重要，我们需要高质量的数据，这三点如果我们都能做到了，机器学习算法本身的进步，我们和行业的专家们的合作和更多的数据的获取，我们就能从瑞金经过遵义到达陕北。

谢谢大家！

主持人：刚刚下面的观众提了问题，其实你最后一页PPT就是最好的答案，它说计算机从视觉感知到认知还需要哪些条件。但我还有另外一个问题，因为你刚刚给的都是图片，如果给的是一段视频，你会存在什么样的结果，如果没有做的话，你会设想一下，这里面可能会带来什么样的希望和挑战？

芮勇：你可能没有很注意听，我刚才把图片变成文字之后，我讲了四个方向，把视频放进来以后今天也可以做到了，但视频中确实很多挑战，因为做图片分析的时候，二维的做了，视频的时候有一个时间轴，所以要一个3D的视频学习的方式，也是可以解决的。谢谢！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

3人收藏