面部识别技术背后，有什么“肮脏的小秘密”？

本文作者：大壮旅

编辑：李帅飞

2019-03-13 19:17

导语：如果你不同意 IBM 将自己的照片当成训练数据，也可以联系它们删除，但操作起来没那么容易。

雷锋网按，面部识别技术成为整个 AI 行业最为常见的技术应用之一；不过，在识别效率越来越高的同时，人们也开始担心面部识别技术发展过程中的隐私安全问题。比如说最近 IBM 利用 Flickr 下载的图片来进行面部识别训练，就引起了人们的质疑；NBC News 针对此事进行了详细的报道，雷锋网对这篇报道进行了不改变原意的编译。

近些年来，面部识别技术得到了长足发展，除了帮你解锁 iPhone，还能让执法机关在人山人海中“一眼”就认出犯罪分子，商店甚至用它来识别自己的“死忠”客户。不过，法律专家却警告称，大量未经允许滥用网络照片最终会画地为牢，反过来成为监控你的“帮凶”。

现在的面部识别技术还不完美，它工作时靠的是算法，目标则很简单——认出那张独一无二的脸。

想把这个任务完成好，技术人员就必须提前“喂给”算法“养料”，即天量的面部照片。那么这些照片从哪来呢？当然是互联网。

起初，算法学习的照片都会按照不同的标准进行分类，比如年龄、性别、肤色等，但经过一段时间的学习后，它的能力开始变得有些吓人了，于是法律和人权专家开始大声疾呼，他们担心技术人员对普通人照片的滥用会带来“反噬”效果。

“这是 AI 训练数据集背后的肮脏小秘密。技术人员可不管三七二十一，只要能用的照片他们都不放过。”纽约大学法学院教授 Jason Schultz 说道。

最近 IBM 公司也进了“暴风圈”，今年 1 月它们向研究人员分享了自己的数据集，包含了 Flickr 上近 100 万张照片，虽然 IBM 号称此举是为了减少面部识别的偏差。

了解真相后的摄影师们不愿意了，因为 IBM 在他们的作品上加了各种细节注释，包括面部几何结构、肤色等信息，而这些照片最终可能会成为面部识别算法的“养料”。

“我拍过的人可没想过，自己的照片居然会被用在面部识别算法训练上。”公关经理 Greg Peverill-Conti 气愤地说道，他有 700 多张照片被收录在了 IBM 的“训练数据集”中。“IBM 太草率了吧，它们怎么能不经同意就使用这些照片”。

IBM 公司 AI 研究主管 John Smith 则表示，公司“致力于保护个人隐私”，如果谁想从数据集中移除照片，尽管联系 IBM。

虽然 IBM 信誓旦旦的保证 Flickr 用户可以随时移除数据集中的照片，但事情哪有那么简单，这本就是个有来无回的“不归路”。因为 IBM 需要拍摄者发送想要移除图片的链接（光靠 Flickr 账号不管用），而它们却从没分享过到底这个数据集用了谁的 Flickr 照片，所以你大概率会被蒙在鼓里。

对于这个数据集，IBM 有自己冠冕堂皇的理由——它将用于学术工作，且担负着让面部识别变得更加公平的重任。当然，在网络照片滥用方面，IBM 并不是独一家，数十家其他研究机构或公司也在采集网络照片训练自己的面部识别系统。

一些法律专家认为，这不仅仅是对数百万人肖像权和隐私权的侵犯，它还加重了人们对面部识别技术的担忧，也许有一天执法部门会让它“双手沾满鲜血”。

面部识别技术的进化历程

面部识别工具刚刚诞生时，研究人员会付钱请人来试验室“帮忙“，这些人拿钱办事，将自己不同姿态和光照角度下的照片留了下来以供研究之用。不过，这样的方案成本高还浪费时间，因此早期的数据集往往只有数百个样本。

进入新世纪后，互联网飞速发展，研究人员突然意识到，面部识别的好时光来了，因为网上有天量的照片可供使用。

面部识别技术背后，有什么“肮脏的小秘密”？

“直接打开搜索引擎，输入名人的姓名，然后下载各种 360 度无死角的照片既可。”美国国家标准技术局数据集采集人员 P. Jonathon Phillips 说道。

随着社交网络的兴盛和自媒体的发展，普通人的照片也突然多了起来。研究人员默认这些照片是对所有人开放的，有时他们甚至会从 YouTube 的视频中抓取面部图片。

由于工作的非经营性质，学术人员用起照片来绝对是近水楼台，因为他们能绕过版权问题了，而 Flickr 的性质更是让它们成了研究人员绝对的安全之选。

为了保证数据集的多样性，IBM 其实从 Flickr 上 Down 了超过 1 亿张照片，随后又精选了 100 万张有注释的面部照片。为了力求精确，它们甚至为这些照片定了 200 多种分类标准。

面部识别技术背后，有什么“肮脏的小秘密”？

谷歌学术指出，这种研究方法在业内几乎已经是尽人皆知，因为有数百篇学术论文都在靠照片采集来佐证自己的论点，没人敢说自己是完全清白的，或者拿到了授权或同意。因此，面部识别准确性的提高和分析工具的进步主要就是靠这些“野路子”来的照片。

IBM 真没拿面部数据集赚钱？

“要想让面部识别系统超常发挥，训练数据必须足够多样化，而且覆盖范围足够广。”IBM 的 John Smith 说道。

在 IBM 看来，自己的数据集并未将图片中的人脸和具体的名字联系起来，这就意味着系统不会侵犯人们的隐私。不过，依然有人质疑 IBM 的动机，因为它们可是向政府出售过监控工具。

举例来说，911 袭击发生后，IBM 就将面部识别技术卖给了纽约警方，执法部门通过搜索监控录像就能识别出特殊的肤色或发色。IBM 还曾推出过“智能视频分析”产品，它们能通过监控摄像头给人们加标签（亚裔、黑人或白人）。

如今，IBM 则有了 Waston 视觉识别系统，通过图片算法就能识别出人的年龄和性别。配合正确的训练算法，客户就能从图片或视频中识别出特定的人。在被问到 Waston 用了什么训练数据时，IBM 称数据有多个来源，不过却拒绝披露具体的数据来源，并美其名曰保护知识产权。

一再逼问下，IBM 称从 Flickr 拿到的相片数据集仅用于研究，不会用来提升公司的商用面部识别工具。不过，有专家指出，类似 IBM 和 Facebook 这样的公司，其研发和商业运营部门之间的界限非常模糊，而且研发部门的知识产权均归 IBM 所有。因此，面部识别公司 Kairos 前 CEO Brian Brackeen 断言，即使学术部门研发的算法有其非商业化性质，这些算法最终还是会被拿来赚钱。

他还打了个形象的比喻，“你可以把它看做拿面部识别技术洗钱，公司将网上的照片洗成了自己的知识产权。”