UC 伯克利的实物对抗性样本研究：稳定骗过 YOLO 和 Faster R-CNN

本文作者：s5248

编辑：杨晓凡

2018-01-10 18:42

导语：在成功骗过分类器之后，骗过物体检测器也不那么难

雷锋网 AI 科技评论按：自从 Ian Goodfellow 等人发现经过细微修改的正常照片就可以成为能骗过神经网络图像分类器的「对抗性样本」以来，这种现象就引起了越来越多研究者的关注，相关的研究成果也越来越多。

之前我们就报道过来自 UIUC 的研究成果：「对抗性样本是纸老虎，一出门就不好使」，表明作为电子文档时可以轻易骗过图像分类器的对抗性样本，打印成实物、经过镜头拍摄之后效果就大大减弱；另一项 OpenAI 的研究则显示出，可以修改出不同强度的对抗性样本，修改程度越高就对视角变换越鲁棒、越能够稳定骗过分类器，不过在人眼看来也就越发不自然。

下面这篇来自 UC 伯克利大学人工智能实验室（BAIR）的研究博客（兼论文预告）进一步研究了如何骗过物体检测器，是对抗性样本研究方向上的另一个新成果。雷锋网 AI 科技评论对其进行了全文编译。

UC 伯克利的实物对抗性样本研究：稳定骗过 YOLO 和 Faster R-CNN

深度神经网络（Deep Neural Networks, DNNs）使得大量的应用领域获得了极大进步，包括图像处理、文本分析和语音识别。DNNs 也正逐渐成为许多信息物-理系统的一个重要组成部分。例如，无人驾驶汽车的视觉系统会利用 DNNs 来更好地识别行人、车辆和道路标志。然而，近期的研究表明，DNNs 易受对抗样本攻击：在输入中小心地添加人造对抗性干扰可以误导被攻击的 DNN 系统，使其在使用时不能正确对人、交通工具和路标分类。这些对抗样本在现实世界中会引发个人和社会的安全隐忧。比如，带对抗式性扰动的输入会误导自动驾驶车辆的感知系统，使其错误地对路标分类，从而带来潜在的灾难性后果。

现有一些技术可用来生成对抗样本以及防御它们。在这篇博客中，我们简要地介绍下最先进的生成数字对抗样本的算法，然后讨论我们在各种环境条件下基于真实物体生成对抗样本的算法。我们将提供我们为目标检测器生成真实对抗样本所做努力的最新情况。

数字对抗样本

在白盒条件下，生成对抗样本已经提出了许多不同的方法，此时对抗器可以知道深度学习网络所有信息。白盒条件下假设存在一个强大的对抗器，且能够帮助未来开发万无一失的防御系统打下坚实基础。这些方法有助于理解数字对抗样本。

Goodfellow 等提出了快速梯度法，应用损失函数的一阶近似来构建对抗样本。

也有人提出基于优化的方法来为针对性攻击创建对抗性干扰。特别地，这些攻击构造了一个目标函数，其求解过程寻求最大化输入数据的真实标签与攻击者期望的目标标签之间的差异，同时在某种相似度下最小化输入数据之间的差异。在计算机视觉的分类问题中，一个常用的度量方法是输入向量的 L2 范数。通常地，具有较低 L2 距离的输入样本之间互相接近。因此，计算出对人眼来说非常相似但对分类器来说非常却不同的输入数据是可行的。

近期的研究工作验证了数字对抗样本的黑盒迁移能力，即在黑盒条件下生成对抗样本也是可行的。这些技术涉及在一个白盒下的已知模型上生成对抗样本，然后到待攻击的未知模型上测试它们。

实物对抗样本

为了更好地理解这些脆弱性，有大量的工作是研究物质世界中对抗样本是如何影响 DNNs 的。

Kurakin 等的研究表明通过智能手机摄像头去分类打印在纸上的对抗样本，容易被错分。Sharif 等人通过在人脸眼镜框帧上添加对抗性干扰攻击了人脸识别系统。他们的工作表明在相对稳定的真实条件下，微小的姿态变化、摄像头距离或角度变化、以及光照变化，都可以成功地进行实物攻击。这为理解稳定环境下实物对抗样本贡献了一个有趣的解释。

我们近期的研究「深度学习模型中鲁棒的实物攻击」已经展现出了对分类器的实物攻击。合理的下一步是，我们对检测器展开攻击。这些计算机视觉算法识别出一个场景中的相关物体并预测一个包围框，表示物体的位置和类别。与分类器相比，检测器更难欺骗，因为它们在预测时处理整个图像且使用上下文信息（例如目标物体在场景中的方向和位置）。

YOLO 检测器是一个流行的、实时的先进算法，我们展示在其上进行实验的实物对抗样本。我们的例子以贴纸干扰的形式放在真实的停车路标上。下面的图片是我们的实物对抗干扰的例子。

UC 伯克利的实物对抗性样本研究：稳定骗过 YOLO 和 Faster R-CNN

我们还执行了动态测试，通过记录一个视频来测试检测器的性能。从视频中可以看出，YOLO 网络在几乎所有的帧上都不能识别出停车路标。如果一个真实的自动驾驶车辆在路面行驶，路过一个带对抗性特征的禁止通行路标，那么它将看不到停车路标，从而可能在交叉路口导致车祸。我们创建的干扰对距离和角度变化鲁棒—-这是无人驾驶场景中最常见的变化因素。

UC 伯克利的实物对抗性样本研究：稳定骗过 YOLO 和 Faster R-CNN

动态测试 1：YOLO 识别带有对抗性贴纸干扰的停车路标

UC 伯克利的实物对抗性样本研究：稳定骗过 YOLO 和 Faster R-CNN

动态测试 2：YOLO 识别带有对抗性贴纸干扰的停车路标

更有趣的是，为 YOLO 检测器生成的真实对抗样本同样也能欺骗标准的 Faster R-CNN 网络。我们的视频包含一个在 Faster R-CNN 上进行的实物对抗样本的动态测试。由于这是在 Faster R-CNN 上进行的黑盒攻击，其不如在 YOLO 案例中那样成功，这是预期的结果。我们相信，增加其他技术（如集成训练），黑盒攻击会更加高效。此外，特别为 Faster R-CNN 优化一个攻击器能产生更好的结果。我们正在写一篇论文，探究这些攻击的更多细节。下面的图片是 Faster R-CNN 不能识别出停车路标的例子。

UC 伯克利的实物对抗性样本研究：稳定骗过 YOLO 和 Faster R-CNN

动态测试 3：为 YOLO 生成的真实对抗样本对 Faster R-CNN 做黑盒迁移测试

在两种案例中（YOLO 和 Faster R-CNN），仅仅当摄像头离停车路标非常近时才能检测出来（大约 3 至 4 英尺）。在真实场景中，这个距离对于车辆来说太近了从而不能采取有效的纠正措施。请继续关注我们即将发表的论文，其包含了关于算法的更多细节和在先进的物体检测器上的实物干扰的结果。

攻击算法概述

这个算法是基于我们前期分类器攻击的工作。本质上，我们采用一个优化方法来生成对抗样本。然而，我们的实验经验表明，为检测器产生鲁棒的实物对抗样本相比欺骗分类器需要模拟一套更大的不断变化的真实环境。这是可能是因为检测器在预测时需要考虑更多的上下文信息。算法的主要特性包含指定真实环境模拟中序列的能力，以及指定平移不变性的能力。即一个干扰无论目标物体位于场景中的哪个位置都应该是有效的。由于一个物体可在场景中自由地移动，这取决于观察者的角度，不为这种情况优化的干扰很可能在物体移动时失效。针对该课题，我们即将出来的论文会包含该算法的更详细信息。

潜在的防御

给定这些实物对抗样本和数字对抗样本，可能的防御方法已有广泛研究。在这些方法当中，有几种类型的对抗训练方法是很有效的。Goodfellow 等首次提出采用对抗训练作为提高 DNNs 鲁棒性的有效方法，而 Tramer 等将它扩展到对抗学习。Madry 等通过对抗样本的迭代训练也提出了鲁棒的网络。要进行对抗训练，就需要一个更大的对抗样本数据集。此外，集成训练表明，如果这些对抗样本来自不同的模型，那么就能使得防御更加鲁棒。集成对抗训练的好处在于提升对抗样本的多样性，使得模型能搜索整个对抗样本空间。同样，也存在几种不同的防御模型，但是 Carlini 和 Wagner 表示没有任何现有防御方法是鲁棒的，即使是自适应攻击。

总之，为了找到防御这些对抗样本的最佳防御策略，我们还有很长一段路要走，我们将满怀期待地探索着这个激动人心的领域。

via: BAIR，雷锋网 AI 科技评论编译、

UIUC说对抗样本出门会失效，被OpenAI怼回来了！

OpenAI最新研究：“对抗样本”能轻易黑掉AI系统，如何抵御？

UIUC最新研究：对抗性样本是纸老虎，一出门就不好使！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

7人收藏

s5248

知情人士

发私信

当月热门文章