「熊猫」变「长臂猿」，「乌龟」变「来复枪」，深度学习模型被攻击，破解之道有哪些？

本文作者： JocelynWang

编辑：幸丽娟

2019-11-18 10:30

导语：人工智能研究者正在尝试弥补神经网络的缺陷

图：研究人员在 3D 打印的乌龟上添加一些颜色，AI 的识别结果为「来复枪」。（ICML 2018）

一辆自动驾驶汽车在接近停车标志的时候，没有进行减速，反而加速驶入了拥堵的十字路口。随后一份事故报告表明，该停车标志表面粘有四个小矩形，这个信息欺骗了车载人工智能（AI），将“停止”一词误读为“限速45”。

虽然该事件并未在现实中发生，但人为扰乱 AI 判断的潜在可能性是真实存在的。研究人员已经展示了如何通过细致地在停车标志的某些位置上贴上贴纸以此愚弄人工智能系统，使其对停车标志产生误读^[1]。此外，他们还通过在眼镜或帽子上贴印刷图案来欺骗人脸识别系统，并且通过在音频中插入白噪声模式，让语音识别系统听取虚假短语以实现欺骗系统的目的。

击败 AI 中被称为深度神经网络（DNN）的这一先进的模式识别技术是件多么容易的事情，而以上仅是此类案例中的一部分。深度神经网络方法在正确分类包括图像，语音和消费者偏好数据等在内的各种输入方面，大获成功。它们已经成为是日常生活的一部分，正在自动电话系统到流媒体服务网飞（Netflix）的用户推荐功能上运行着。然而，当以人们难以察觉的微小变化形式更改输入时，往往可能会混淆其周围效果最好的神经网络。

加利福尼亚大学伯克利分校计算机科学专业的博士生 DanHendrycks 说到，这些问题比不完美的技术造成的“莫名其妙”的结果更令人担忧。像许多科学家一样，他开始将这些问题看作证明“DNN 从根本上而言是脆性的”的直观例证：它们即便此前在某一任务上表现得再出色，一旦进入到陌生的领域，就会以无法预料的方式遭遇失败。

「熊猫」变「长臂猿」，「乌龟」变「来复枪」，深度学习模型被攻击，破解之道有哪些？

来源：Stop sign: Ref. 1; Penguin: Ref. 5

这将可能会导致严重的问题。深度学习系统越来越多地走出实验室而进入现实世界：从驾驶无人驾驶汽车到犯罪制图和疾病诊断领域。但今年一项研究报告称，恶意添加到医学扫描中的像素可能会使 DNN 误检癌症^[2]。另一项研究表明，黑客可以利用这些弱点劫持一个基于在线 AI 的系统，使其运行入侵者自己的算法^[3]。

在努力找出问题所在的同时，研究人员也发现了招致 DNN 失败的诸多原因。来自加利福尼亚山景城的谷歌 AI 工程师 FrançoisChollet 认为：“目前尚无解决深度神经网络根本脆弱性的方法”。他和其他研究者认为，要克服这些缺陷，研究人员需要使用额外的能力来增强模式匹配 DNN ：例如，使 AI 能够自己探索世界，编写自己的代码并保留记忆。一些专家认为，这类系统将构成 AI 研究领域未来十年的新篇章。

现实检测

2011年，谷歌推出了一种可以识别 YouTube 视频中猫的系统，不久之后，出现了一系列基于 DNN 的分类系统。任职怀俄明大学拉勒米分校、兼任加利福尼亚州旧金山 Uber AI 实验室的高级研究经理 JeffClune 感慨道：“所有人都在说，‘哇，这太神奇了，计算机终于可以理解世界了’。”

但是 AI 研究人员知道 DNN 实际上并不了解世界。它们实际上是大脑结构的粗糙模型，是由许多数字神经元组成的软件结构，这些数字神经元分布在许多层中，每个神经元都在其上方和下方各层的其他神经元相互连接。

它的思路大致如下，首先将原始输入的特征放入底层，例如图像中的像素，这将触发其中一些神经元，这些神经元随后根据简单的数学规则将信号传递到上一层神经元。DNN 网络的训练过程包括使其接触大量的示例，并在每次接触时都调整神经元的连接方式，从而最终能够在顶层输出所需的答案——例如它可以始终将图片中的狮子识别为狮子，即使DNN之前从未见过这张图片。

2013 年，谷歌研究员 Christian Szegedy 和他的同事发布了一张名为“神经网络的有趣特性”^[4]的预印本，这是首个重大的现实检测。该团队表明了这一事件的可能性：输入一张 DNN 可识别的图像，例如狮子的图像，然后通过改变部分像素可使机器确信自己正在查看另外一个不同的东西，比如一个开发库。该研究小组称篡改后的图像为“对抗样本”。

「熊猫」变「长臂猿」，「乌龟」变「来复枪」，深度学习模型被攻击，破解之道有哪些？

一年后，Clune 和他当时的博士生 Anh Nguyen 联合纽约伊萨卡康奈尔大学的 Jason Yosinski 进行的研究表明，也可能使 DNN看到不存在的东西，例如波纹线形式的企鹅 ^[5]。深度学习领域的先驱、加拿大蒙特利尔大学的YoshuaBengio表示：“任何跟机器学习打过交道的人都知道这些系统偶尔会犯一些愚蠢的错误......然而令人惊讶的是所犯错误的类型......其中有一些真是令人震惊，并且是我们难以想象会实际发生的错误。”

新出现的错误类型越来越多，并且出现的速度越来越快。去年，现就职于阿拉巴马州奥本大学的 Nguyen表明，仅仅是图像中正在转动的目标就足以让周围一些表现最佳的图像分类器失效^[6]。 Hendrycks 和他的同事在今年的报告中指出，即使是纯朴的自然图像也仍然可以骗过最先进的分类器，使其产生无法预测的失误，例如将蘑菇识别为椒盐脆饼或将蜻蜓识别为井盖^[7]。

「熊猫」变「长臂猿」，「乌龟」变「来复枪」，深度学习模型被攻击，破解之道有哪些？

问题不仅仅存在于目标识别领域：任何使用DNN来分类输入（例如语音）的 AI 都可以被愚弄。玩游戏的 AI 也可能会遭到攻击：2017年，加州大学伯克利分校的计算机科学家桑迪·黄（Sandy Huang）以及她的同事，重点研究了经过强化学习训练最终打败了电子游戏 Atari的 DNN^[8^]。这种方法给 AI 设定了一个目标，与此同时，通过反复试验和纠错来学习能够实现目标的内容以响应一系列输入。它是AlphaZero和扑克机器人Pluribus等表现超越了人类的游戏 AI 背后的技术。即便如此，Huang 的团队仍然可以通过在屏幕上添加一个或两个随机像素来使 AI 输掉游戏。

今年早些时候，加利福尼亚大学伯克利分校的AI博士生 AdamGleave 和他的同事们证明，有可能将智能体概念引入 AI 环境中，以执行旨在干扰 AI 反应的“对抗策略”^[9]。例如，在一个模拟环境中训练一个 AI 足球运动员来将足球踢过 AI 守门员，一旦守门员发生它无法预料到的行为（例如倒在地上）时，那它就失去了将足球踢进球门得分的能力。

「熊猫」变「长臂猿」，「乌龟」变「来复枪」，深度学习模型被攻击，破解之道有哪些？

图注：一名模拟罚球的AI足球运动员在AI守门员制定“对抗策略”跌倒在地（见右图）时（见右图）感到困惑。图片来源：Adam Gleave / Ref.9

知道 DNN 的弱点在哪里，黑客甚至可以掌控强大的AI。去年就有一个例子，当时谷歌的一个团队表明，使用对抗样本不仅可能让 DNN犯特定的错误，而且还可以对其完全重新编程，从而有效地再次利用接受过一项任务训练的AI 去完成另外一项任务^[3]。

原则上，许多神经网络，例如那些学习理解语言的神经网络，可以被用于对任何其他计算机程序进行编码。Clune 对此表示：“从理论上讲，您可以将聊天机器人转成任何所需的程序，这是让你觉得难以置信的地方。”他设想在不久的将来，黑客可能会劫持云中的神经网络来运行其设计的能够躲过筛掉垃圾邮件的机器人的算法。

对于加州大学伯克利分校的计算机科学家 Dawn Song 而言，DNN就像坐着的鸭子一样。她说：“攻击系统的方式有很多，而防守非常非常困难。”

强大的功能伴随着极大的脆弱性

DNN具有强大的功能，它们的多层结构意味着它们在尝试对输入进行分类时可以选择输入许多不同特征中的模式。经训练用来识别飞机的 AI 能够发现，诸如色块、纹理或背景之类的特征，其实跟我们所认为的非常直观的东西（如机翼）一样都是很强的预测器。但这也意味着即便输入只发生了很小的变化，AI 都可能将其视为情况明显不同的东西。

一个解决方案就是给 AI 提供更多数据，特别是在要使 AI 反复面临存在问题的示例并纠正其错误时。在这种“对抗训练”形式下，一个网络学会识别物体，第二个网络试图改变第一个网络的输入，以使其出错。这样的话，对抗样本便成为DNN训练数据的一部分。

Hendrycks和他的同事建议通过测试DNN在各种对抗性样例中的表现，来量化DNN预防出错的鲁棒性，以此来防止其出错。但是，训练网络抵御一种攻击可能会削弱它对抗其他攻击的能力。伦敦谷歌 DeepMind 的 PushmeetKohli 领导的研究人员正在尝试增强DNN规避错误的能力。许多对抗性攻击通过对输入的组成部分进行细微调整，例如巧妙地更改图像中像素的颜色以此来起作用，直到使得DNN进行错误分类为止。 Kohli的团队建议，强大的DNN不应因其输入的微小变化而改变输出，并且从数学层面来看，这种属性可能会并入网络，这样会限制其学习的方式。

然而，目前还没有人提出从整体上解决 AI 脆弱性问题的方案。Bengio说，问题的根源在于DNN并没有很好的模型来识别到底什么才是重要的内容。当AI将被篡改的狮子图像看作开发库时，人们看到的仍然会是狮子，因为他们对于动物的心智模型基于一系列高级特征，如耳朵，尾巴，鬃毛等，这让他们能够得以从底层任意或次要的细节中将这些特征抽象出来。Bengio表示：“我们从先前的经验中知道哪些特征是主要的，而这来自对世界结构的深刻理解。”

解决此问题的一种尝试是将 DNN 与符号 AI 结合起来，这是人工智能领域在机器学习出现之前所使用的主要范式。借助符号AI，机器就可以使用关于世界如何运作的硬编码规则进行推理，比如说这个世界涵盖了离散目标，而这些离散目标又彼此以各种方式相互关联。

一些研究人员，例如纽约大学的心理学家 Gary Marcus 认为，混合 AI 模型才是深度学习未来发展的方向。“深度学习在短期内是如此有用，以至于人们对它的长期发展视而不见。”长期以来对当前深度学习方法持批判态度的 Marcus 如是说道。今年 5 月，他在加利福尼亚州帕洛阿尔托与人共同创立了一家名为 Robust AI 的初创公司，旨在将深度学习与基于规则的 AI 技术相结合，以开发可以与人协同安全操作的机器人。公司目前开展的确切工作内容仍处于秘密状态。

即使可以将规则嵌入到DNN中，它们的表现也仍然只能达到与它们学习的数据一样好的程度。Bengio说，AI 智能体需要在可进行探索的更加丰富的环境中学习。例如，大多数计算机视觉系统无法识别一罐啤酒是圆柱形的，这是因为它们是在 2D 图像的数据集上进行训练的。这就是 Nguyen 及其同事发现“通过从不同角度呈现熟悉的目标来愚弄 DNN ”如此简单的原因。而让智能体在真实或模拟的3D环境中学习，会对提高它们的表现有所帮助。

但是，AI 学习的方式也需要改变。Bengio 就曾提出：“ 学习因果关系这件事，应该由能够在现实世界执行任务以及可进行试验和探索的智能体来做。”

另一位深度学习的先驱、位于瑞士曼诺市的 DalleMolle 人工智能研究所的 JürgenSchmidhuber 的思路也类似。他指出，模式识别非常强大——强大到足以使阿里巴巴、腾讯、亚马逊、Facebook和Google等公司成为世界上最有价值的公司。他还说道：“但还将有更大的浪潮到来，那就是将会出现能够操控这个世界并且能够通过其自身行为创造它们自己的数据的机器。”

从某种意义上说，使用强化学习击败电脑游戏的 AI 也已经在人工环境中做到了：通过试验和试错，它们以允许的方式操纵屏幕上的像素，直到达到目标为止。但是实际环境比当下训练大多数DNN 所依据的模拟或策展数据集要丰富得多。

即兴机器人

在加州大学伯克利分校的一个实验室里，一条机械臂在混乱中翻腾。它拿起一个红色的碗，并用它在右边几厘米处轻推一个蓝色的烤箱手套。随后，它放下碗拿起一个空的塑料喷雾瓶。再然后它摸索了一本平装书的重量和形状。经过几天的不间断筛选，机器人开始对这些陌生物体以及它们可以做什么有了一定了解。

机器人手臂正在使用深度学习来自学使用工具。给定一系列物体，它会捡起并轮流观察每个物体，看看当它们四处移动并用一个物体撞击另一个物体时会发生什么。

「熊猫」变「长臂猿」，「乌龟」变「来复枪」，深度学习模型被攻击，破解之道有哪些？

机器人使用深度学习来探索如何使用3D工具。图片来源：AnnieXie

当研究人员给机器人一个目标（例如，给它展示一个几乎空的托盘的图像并指定机器人布置与该状态匹配的物体）时，它即兴发挥，并且可以处理以前从未见过的物体，例如使用海绵擦拭桌子上的物品。它还发现，使用塑料水瓶清理物体的方法比直接捡起这些物体要快得多。“与其他机器学习技术相比，深度学习能够实现的通用性持续给我留下深刻的印象，”曾在伯克利实验室工作的Chelsea Finn 说道，现在他正在加利福尼亚州斯坦福大学继续进行这项研究。

Finn 还认为，这种学习使 AI对于物体和整个世界有更丰富的理解。如果你仅在照片中看到过水瓶或海绵，则也许可以在其他图像中认出它们。但是你不会真正理解它们是什么以及它们应该用来做什么。她说：“如果没有真正与这些物体进行互动，你对世界的了解要浅得多。”

但是，这种学习是一个缓慢的过程。在模拟环境中，AI 可以以闪电般的速度完成某个示例任务。2017年，DeepMind 旗下自学游戏软件的最新版本——AlphaZero 在短短一天内先后被训练成一个围棋、国际象棋和将棋（一种日本象棋）的超人类玩家。在那段时间，它已经在每场游戏比赛接受了超过 2000万次训练。

AI 机器人无法快速学习。加利福尼亚州伯克利的 AI 机器人技术公司 Ambidextrous 的联合创始人 JeffMahler 指出，深度学习所获得了多数成功很大程度上都依赖于大量的数据。“单个机器人要想收集数千万个数据点，即便连续执行任务也需要花费数年的时间。” 此外，数据可能会不可靠，因为传感器的标定会随着时间而变化，并且硬件可能会退化。

因此，大多数涉及深度学习的机器人工作仍使用模拟环境来加快训练速度。“机器人究竟能学到什么依赖于模拟器的性能，”亚特兰大乔治亚理工学院机器人学博士生DavidKent 说。模拟器的性能一直在提高，与此同时研究人员也越来越擅长让机器人将在虚拟世界中学到的经验迁移到现实世界中。但是，这种模拟仍然无法满足现实世界的复杂性。

Finn 认为，与使用人工数据进行学习相比，使用机器人进行学习最终更容易实现规模化。她的一台能够使用工具的机器人花了几天时间来学习一个相对简单的任务，但不需要繁琐的监控。她说：“你只需要运行机器人，然后偶尔检查一次即可。”她想象着有一天，世界上会出现很多能够自行完成任务并进行全天候学习的机器人。这应该是可能的——毕竟，这也是人类理解这个世界的方式。Schmidhuber 说：“婴儿不会通过从 Facebook下载数据来进行学习。”

从更少的数据中学习

婴儿也可以从仅仅几个数据点中识别出新的样本：即使他们以前从未见过长颈鹿，但在看过一次或两次之后，他们仍能够认出这就是他们刚刚看过的物体。婴儿之所以能够迅速做出反应，部分原因是因为他们看过许多其他生物，即使（看到的）不是长颈鹿，也已经熟悉了它们的主要特征。

授予 AI 这类能力的一个统称术语是迁移学习，即将前几轮训练中获得的知识迁移到另一项任务。一种实现的方法是在训练新任务时，重复使用部分或全部预训练的网络作为起点。例如，在识别长颈鹿的学习过程中，重复使用训练过的部分DNN来识别一种动物，例如识别基本身体形状的那些层，从而在学习识别长颈鹿时，为新的网络提供边缘特征。

迁移学习的一种极端形式是通过仅使用很少甚至有时候仅为一个的样本来训练新网络。这被称为“小样本学习”或”多次学习”，它严重依赖于预训练的DNN。

假设你想要创建一个面部识别系统来识别罪犯数据库中的人，一种快速的方法是使用已经看到过数百万张面孔（不一定是数据库中的面孔）的DNN，以便它对一些显著特征，如鼻子和下巴的形状，有一个很好的了解。现在，当网络仅查看一张新面孔的样本时，它可以从该图像中提取有用的特征集。然后，它可以比较该特征集与罪犯数据库中单个图像特征集的相似程度，并找到最接近的匹配项。

拥有利用这种经过预训练的记忆可以帮助 AI 在无需查看很多额外的新模式来识别新样本，从而加快机器人的学习速度。但是，当此类DNN面临与其经验相距太远的样本时，仍然可能会无所适从。目前关于这些网络拥有怎样的泛化能力，尚未明晰。

即使是最成功的 AI 系统，例如 DeepMind 的AlphaZero，其专业领域也非常狭窄。虽然可以训练AlphaZero的算法来下围棋和国际象棋，但两个训练是不能同时进行的。需要利用之前在围棋上的经验对模型的关联性和反应能力重新训练，从而能够利用此前在围棋上积累的经验在国际象棋上取胜。Finn说：“如果你从人的角度来考虑问题，就会觉得这太荒谬了。”人们不会轻易忘记自己所学到的东西。

学习如何学习

AlphaZero 在游戏中的成功不仅取决于有效的强化学习，还依赖于帮助其学习的算法（使用一种称为“蒙特卡洛树搜索”技术的变体），以缩小选择范围^[10]。换句话说，就是指导 AI 以最佳方法从其周围的环境中学习。Chollet 认为，人工智能接下来重要的一步将是使DNN 拥有能够编写自己的此类算法的能力，而不是使用人类提供的代码。

他认为，用推理能力补充基本的模式匹配将让 AI 更好地处理超出其舒适范围的输入。多年来，计算机科学家一直在研究可以使计算机自动生成代码的综合程序。Chollet 认为，将该领域与深度学习相结合可能会导致 DNN 系统更接近人类所用的抽象心理模型。

例如，在机器人技术方面，位于加利福尼亚州门洛帕克 Facebook 人工智能研究所的计算机科学家 KristenGrauman 和得克萨斯州奥斯汀的德州大学研究人员都正在教机器人如何最佳地自行探索新环境。例如，这可能涉及到机器人在遇到一个新场景时选择该往哪个方向看以及选择用哪种方法来操作这个物体从而更好地理解这个物体的形状或用途。这一思路是，让 AI 预测出：哪个新的视角或角度将能给予它更多可以从中学习的有效的新数据。

该领域的研究人员表示，他们在解决深度学习的缺陷方面，正在取得进展，但也承认他们仍在寻求新技术以减轻该过程的艰巨性。正如 Dawn Song 所说的，深度学习背后没有太多理论支撑，深度学习背后没有太多理论。她说：“一旦失效，便很难找出原因” “整个领域仍然非常依赖经验来进行指导，你要做的只是去尝试一下。”

目前，尽管科学家认识到DNN的脆弱性及其对大量数据的依赖性，但是大多数人还是认为该技术将继续存在。近十年来，人们意识到训练神经网络利用庞大的计算资源可以很好地进行模式识别，这仍然是让人们觉得出乎意料的。然而也正如 Clune 所说的： “没有人真正知道如何改善它。”。

参考文献

[1] Eykholt, K. et al. IEEE/CVF Conf. Comp. Vision Pattern Recog. 2018, 1625–1634 (2018)

[2] Finlayson, S. G. et al. Science 363, 1287–1289 (2019)

[3] Elsayed, G.F., Goodfellow, I.&Sohl-Dickstein, J. Preprint at https://arxiv.org/abs/1806.11146 (2018)

[4] Szegedy, C. et al. Preprint at https://arxiv.org/abs/1312.6199v1(2013)

[5] Nguyen, A., Yosinski, J. & Clune, J. IEEE Conf. Comp. Vision Pattern Recog. 2015, 427–436 (2015)

[6] Alcorn, M. A. et al. IEEE Conf. Comp. Vision Pattern Recog. 2019, 4845–4854 (2019)

[7] Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J. & Song, D. Preprint at https://arxiv.org/abs/1907.07174 (2019).

[8] Huang, S., Papernot, N., Goodfellow, I., Duan, Y. &Abbeel, P. Preprint at https://arxiv.org/abs/1702.02284 (2017)

[9] Gleave, A. et al. Preprintat https://arxiv.org/abs/1905.10615(2019)

[10] Silver, D. et al. Science 362, 1140–1144 (2018)

via https://www.nature.com/articles/d41586-019-03013-5

雷锋网 AI 科技评论编译。雷锋网雷锋网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

JocelynWang

知情人士

发私信

当月热门文章