“以图搜图”的奇葩用途 | 深度

本文作者：史中

2016-07-15 09:40

导语：在很多情况下，没有人会把图像识别技术和某些特定的问题联系起来。或者说：对科技的魔力，我们仍然懵然无知。

你在什么时候会用图搜图？

当你感到语言苍白无力的时候。

你在扫街的时候，突然发现某撩妹达人穿了一身炫酷的T恤。

你收到朋友送来的生猛红酒，好奇这到底是百年窖藏还是山寨葡萄糖。

你在编辑文案的时候，一张非常适合的图片却挂着水印，你需要一个清晰的版本（请支持正版。。。）

以图搜图就像一个“痒痒挠”，能够到文字搜索难以企及的痒点。这让我们对这种搜索方式的结果抱有很高的期待。它让很多人能透过互联网的森林，感受到若隐若现的人工智能灵魂。这可能正是人们对这种技术好奇的原因。

“以图搜图”的奇葩用途 | 深度

【图像识别的应用场景】

和这种技术为伴十多年的陈杰博士，是博云视觉的CEO。他带领北大团队研发的图像识别技术如今被用在百度和微信的图像搜索和图像识别场景中。他为雷锋网详细介绍了图像识别的一个重要门派——基于尺度空间理论的视觉搜索。

“以图搜图”的奇葩用途 | 深度

【陈杰】

视觉的秘密

人的视觉原理很简单：物体反射自然光在眼中成像。

如果面前是一面巨大的白墙，你很难看出其中的细节。但是如果在墙面上画了一只鸟，你一眼就可以分辨出来。
你之所以能看到眼前这个鸟，是因为你的视觉认为它是一个“斑点”。通俗来讲，就是某个东西和周围的物体产生了反差。

陈杰如此解释视觉的原理。

所以在你的眼中，眼前的场景是由一些“刺激点”组成的。这些便是图像的“特征点”。而如果机器能够和人一样准确地识别两张图片中相同的“特征点”，就可以实现以图搜图这种高科技了。

但对于人眼来说易如反掌的刺激点，怎么用机器语言记录呢？

陈杰告诉雷锋网，在机器眼中，每一个特征点都会被记录为描述性的数据，这些数据包括像素矩阵，颜色、纹理、梯度、形状分布等

在博云视觉的算法中，每张图片会被提取1000个左右的特征点，而这些特征数据的大小约为 2Kb-4Kb。

虽然背后的算法极其精细，但是粗略来说，对数据库中的每张照片提取特征之后，图像搜索就可以开始了。

用户提交搜索的查询图片，系统会自动提取图片上的特征点，再用特征点和数据库中的图片特征做对比，两个图片的特征点匹配越多，系统就认为两张图片最为相似。于是，用户会得到一个
按照相似度排序的搜索结果列表。

陈杰说，“一般两张图片拥有10个匹配的特征点，我们就可以认为他们是相似图片。”

“以图搜图”的奇葩用途 | 深度

警察叔叔的利器

一般童鞋可能想不到，这个高科技解放了警察叔叔。

对于重大案件来说，嫌疑人的汽车往往是破案的重要线索。于是如何从数以亿计的监控图像中找出某个特定汽车，成为了警察叔叔的噩梦。

以往的方法是：警察叔叔们趴在电脑前，连续看上一两个月监控视频，才能基本找到所有包含目标汽车的监控图像。（由于汽车的移动，所以一般会在多个监控图像中发现目标。）
但是如果使用图像识别技术，只要依靠一张样本，就可以在几小时之内，基本找到所有目标图像。

陈杰告诉雷锋网，在和某地公安的联合实验中，在搜索结果的前200位中，包含了正确结果的90%。也就是说：如果目标共出现在50张图片中，那么在前200位结果中包含45个。

【利用监控图片搜索指定汽车】

“增强现实”的工具

但是，一辆车一定是以各个角度和姿态出现在监控图像中，那么识别系统为什么可以做出相对准确的识别呢？

陈杰表示，使用这种技术做图像识别，需要面对三个重要的干扰因素：

光照

由于同一个物体在不同光线下，特征点的像素呈现出的数据会有很大的差异。所以好的算法必须能够排除光线的干扰，提取物特征点最基础的信息。但是不可否认，在极端弱光（例如黑夜）或者极端复杂光线（例如酒吧）下，特征的辨识力会降低。

几何变换

一辆汽车从各个角度来看，有很大的区别。根据物体的拍摄角度不同，特征信息一定会发生变化。然而人眼仍然能够识别出两个不同角度的图像是同一物体。对于机器识别系统来说，则需要根据不同的角度变换进行计算，这样就能尽可能做到物体平移、旋转等几何变换之后依然可以进行准确匹配。

距离

如果物体在画面中位置过远，就会变得更小，这样图像上的细节就会大量丢失。这样的话，一张近视图和远视图就很难被机器认定为相似。为了解决这个问题，陈杰和团队采用了一种基于尺度空间理论的方法：将每张图片以不同的量级进行高斯模糊，这个动作是为了模拟人眼在不同距离看到的物体。在这些模糊图片进行特征提取和比对，就可以匹配距离镜头不同距离的同一物体。

“以图搜图”的奇葩用途 | 深度

解决了“距离”这个棘手的问题，这种图像识别的方法就可以完美地应用在增强现实的游戏中。在这种情况下，应用场景往往是预设而且固定的，所以游戏的提供商可以把真实的场景通过拍摄不同角度和远近的照片，然后录入数据库。玩家在进行游戏的时候，会佩戴带有摄像头的眼镜，这种情况下，图像识别系统就可以对玩家眼中的“景物”和数据库中的图片匹配，理解玩家的具体位置，从而在眼镜中加入各种奇幻的特效