近亿级数据集下线，MIT道歉，ImageNet 亦或遭殃

本文作者：青暮

编辑：刘晓坤

2020-07-02 10:14

导语：持续的沉默只会在将来造成更多的伤害

作者 | 青暮、陈大鑫

编辑 | 丛末

麻省理工学院（MIT）已永久删除包含8000万张图像的Tiny Images数据集。

此举是论文《Large image datasets: A pyrrhic win for computer vision?》中的发现导致的结果。论文作者在数据集中发现了许多有危害类别，包括种族歧视和性别歧视。这是依赖WordNet名词来确定可能的类别而没有检查图像标签带来的结果。他们还确定ImageNet中也有类似的问题，包括非自愿的色情材料等。

在The Register向MIT发出警示之后，该数据集已于本周删除。MIT还敦促研究人员和开发人员停止使用该数据集，并删除任何副本。CSAIL的电气工程和计算机科学教授Antonio Torralba表示：“实验室根本不知道这些令人反感的图像和标签存在于数据集中。”他告诉The Register：“很明显，我们应该手动筛选它们。为此，我们深表歉意。”

由于MIT在采集数据集时使用不当的方法，这些系统可能将女性标记为“ji女”或“biao子”，而对黑人和亚裔的描述则带有贬义。该数据库还包含标有“cunt”的女性生殖器特写图片，此外还包括带有“nigger”（黑鬼）标记的黑人和猴子的图片，穿着比基尼或抱着孩子的妇女，被贴上“ji女”的标签，将日常图像与诽谤、令人反感的语言联系起来，并把偏见引入AI模型。

该图展示了MIT数据集中标有问题单词的图片数量。

Tiny Images数据集可视化下线之前的屏幕快照。它展示了标签“ji女”的数据集示例，出于法律原因，已将其像素化。图片包括母亲抱着婴儿的照片、圣诞老人的爆头照片、色情女演员和穿着比基尼的女人的照片。

如今，Tiny Images数据集与更知名的ImageNet数据集都成为了评估计算机视觉算法的基准。但是，与ImageNet不同，到目前为止，还没有人检查过Tiny Images中有问题的内容。

ImageNet也存在相同的问题，因为它也使用WordNet进行了标记。名为ImageNet Roulette的实验让人们将照片提交到ImageNet训练的神经网络，一些人上传了自拍照，但是当软件使用种族主义和冒犯性标签描述他们时，他们感到震惊。

在这些庞大的数据集中，有问题的图像和标签所占的比例很小，很容易将它们当作异常现象而忽视掉。这部分数据集在AI训练过程中通常不能得到均衡的分配。这就是面部识别算法难以识别女性和肤色较深的人的原因。底特律的一个黑人在今年早些时候被面部识别软件误认为是可疑小偷后，被警察误捕。近期颇有争议的图像翻译算法PULSE则将奥巴马的模糊照片变成了白种人。

祸起WordNet

Torralba教授介绍了Tiny Images数据集的构建方式：获得大量单词（包括贬义词），然后编写代码以使用这些单词在网络上搜索图像并将其结合在一起。

Torralba教授说：“数据集包含直接从WordNet复制的53,464个不同名词”然后，这些数据被用来从互联网搜索引擎自动下载相应名词的图像，最后使用当时可用的过滤器来收集8000万张图片。”

WordNet于1980年代中期在普林斯顿认知科学实验室建立，由George Armitage Miller创立，他是认知心理学的创始人之一。“ Miller着迷于单词之间的关系，Prabhu说：“数据库本质上反映了单词如何相互关联。”

例如，“猫”和“狗”比“猫”和“伞”更紧密相关。不幸的是，WordNet中的某些名词是种族歧视的和侮辱性的。几十年后的今天，这些术语困扰着现代机器学习。

“在构建庞大的数据集时，需要某种结构，” Birhane说：“这就是WordNet有效的原因。它为计算机视觉研究人员提供了一种对图像进行分类和标记的方法。当可以使用WordNet时，为什么要自己手动做呢？”

Tiny Images和ImageNet的批判研究

回到这件事的起因上，该论文的两位作者是来自硅谷一家隐私初创公司UnifyID的首席科学家Vinay Prabhu和爱尔兰都柏林大学的博士学位候选人Abeba Birhane，他们在研究了MIT数据库之后发现了成千上万张带有针对黑人和亚洲人的种族主义诽谤和用于描述女性的贬义词标签的图像。之后他们以ImageNet-ILSVRC-2012数据集为例做了一些研究并发表了本篇论文。

作者调查了由于不严格且考虑不周的数据集管理做法而导致的整个社会以及个人所面临的危害和威胁的情况，并且提出可能的纠正方法，并批评这些方法的利弊。作者适当开源了在此努力中生成的所有代码和普查元数据集，以使计算机视觉社区得以建立。通过揭露威胁的严重性，作者希望激发大型数据集管理流程的强制性机构审查委员会（IRB）的组成。

作者认为在大数据时代，个人知情同意、隐私权或代理权的基本原则已逐渐被侵蚀。机构、学术界和工业界，在未经同意的情况下收集了数以百万计的人的图像。如表1所示，在同行评议的文献中发现了数以千万计的人物形象。这些图片是在未经个人同意或知情的情况下获得的，也未经IRB批准收集。

作者对ImageNet数据集进行了批判：

ImageNet数据集的出现被广泛认为是深度学习革命中的一个关键时刻，它改变了计算机视觉和人工智能。从图像的可疑方式的来源，到图像中人物的标记，再到使用这些图像训练人工智能模型的下游效果，ImageNet和大规模视觉数据集（LSVD）总体上构成了计算机视觉的一个代价高昂的胜利。这场胜利是以伤害少数群体为代价的，并进一步助长了对个人和集体的隐私和知情权的逐渐侵蚀。当更广泛的计算机视觉社区缺乏对ImageNet数据集的审查，这只会鼓励学术和商业机构在没有审查的情况下建立更大的数据集。

随之作者又进行了一些反思：

大型图像数据集，如果没有仔细考虑社会影响，就会对个人的福利和福利构成威胁。允许人脸搜索的反向图像搜索引擎在过去的一年里取得了显著而令人担忧的效率。只需支付少量费用，任何人都可以使用他们的门户或API来运行一个自动化程序以发现ImageNet数据集中人类的“真实”身份。例如，在性工作受到社会谴责或法律定罪的社会中，通过图像搜索重新识别性工作者，对受害者个人来说确实是一种危险。

说到这里我们额外提一句，以上事情在中国也切切实实的正在发生着，国内某家搜索引擎巨头的老板曾在前年中国发展高层论坛现场就人们关心的数据和隐私问题谈到：“中国人更加开放，对隐私问题没有那么敏感，如果他们可以用隐私交换便捷性，很多情况下他们是愿意的。”

哦，怪不得他之后在自家公司的大会上被人泼了"宏颜祸水"，另外这家公司出品的“百毒”识图相信大家也都用过。

最后作者给了一些解决方案建议：

1、合成真实和数据集蒸馏

这里的基本思想是在模型训练期间使用（或增强）合成图像来代替真实图像。方法包括使用手绘草图图像（imagenet sketch），使用GAN生成的图像和数据集蒸馏等技术，其中一个数据集或一个数据集的子集被提炼成几个具有代表性的合成样本。这是一个新兴的领域，在跨视觉域的无监督域适应和通用数字分类方面有一些有希望的结果。

2、对数据集强化伦理过滤

3、定量数据集审计：以ImageNet为模板

作者对ImageNet进行了跨范畴的定量分析，以评估道德违规的程度和基于模型注释的方法的可行性。这导致了ImageNet普查，需要对57个不同指标进行图像级和类级分析，这些指标包括计数、年龄和性别（CAG）、NSFW评分、类别标签的语义和使用预先训练的模型分类的准确性。

结论与讨论

作者试图引起机器学习界对大规模数据集的社会和伦理影响的关注，例如非一致同意的图像问题和经常隐藏的分类问题一直被认为是计算机视觉和人工智能领域最令人难以置信的突破之一。

ImageNet的成就确实值得庆祝，并且创造者们为解决一些伦理问题所做的努力也值得认可。尽管如此，ImageNet以及其他大型图像数据集仍然很麻烦。持续的沉默只会在将来造成更多的伤害而不是带来好处。在这方面，作者概述了一些解决办法，包括审计卡，可以考虑改善提出的一些关切。作者还策划了元数据集，并将代码开源，以ILSVRC2012数据集为模板进行定量审计。

作者敦促机器学习界密切关注他们的工作对社会，特别是对弱势群体的直接和间接影响。在这方面，必须意识到当前工作的历史前因、背景和政治层面。作者希望这项工作有助于提高人们的意识，并为继续讨论机器学习中的伦理和正义提供帮助。

一些其他观点

1、副本无处不在

即便MIT主动下线了Tiny Images数据集，但是数据副本无处不在。很多用户都下载过这些副本到本地，如何保证这些副本不会被再次上传到网络呢？在reddit上有网友表示知道该数据集的副本地址。

2、人工智能鉴黄系统的工作还能继续吗？

如果想要训练一个人工智能鉴黄系统，那么必须要先人为的制作数据集也就是要对一些图片打上标签说这是色情图片。

问题是这些图片从何而来呢？

如果是用爬虫程序从色情网站上收集，那么怎么保证这些图片当中哪些能用呢？比方说有些无辜受害的情侣被偷拍的照片被不法分子上传到色情网站，然后爬虫程序又把它们下载下来，我们难道可以哪怕是为了开发鉴黄系统而理所当然的使用这样照片吗？这难道不是对无辜受害者的隐私再一次侵犯吗？

另外如果说收集的是色情从业者（他们的国家合法化这项职业）的视频和图片，那TA们的肖像权就不值得尊重和保护了？

所以说一旦考虑到要严格遵守隐私权和肖像权，人工智能鉴黄系统就难以为继。

3、利用人工智能程序自动判断种族、性别等歧视是个矛盾

因为如果我们要考虑制造一个AI系统来自动帮助我们判别某些图片是不是存在某种歧视，那么我们同样需要收集和利用这些有歧视的图片，可是在得不到本人允许的情况下我们又何以冠冕堂皇的利用这些图片来做成“典型"来告诉人工智能说：嗨AI，快看！这个就是XX歧视的图片，你可得“记住”哈！

那就让我们“愉快”地抛弃人工智障回到农耕（手工）时代吧！

可是，难道个人或者企业私自收集并利用这些包含隐私/歧视的数据就合法了吗？？？

所以，如何建立一个公开的征得当事人同意的令公众信服的数据集就成为了当前和未来的一大难点。

参考内容：

https://www.reddit.com/r/MachineLearning/comments/hjelz4/n_mit_permanently_pulls_offline_tiny_images/

https://arxiv.org/abs/2006.16923

https://www.theregister.com/2020/07/01/mit_dataset_removed/

雷锋网雷锋网雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

青暮

编辑

发私信

当月热门文章