【武汉大学王骞分享】从数据视角看，如何安全地实现更好的AI

本文作者：嘉嘉

2022-06-29 18:33

专题：IEEE X ATEC科技思享会

导语：深度学习相关技术及其应用的发展令人瞩目，人工智能离人类生活越来越近。毫不夸张地说，AI已“入侵”到人类生活的方方面面。

IEEE x ATEC

IEEE x ATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践，助力数字化发展。

在社会数字化进程中，随着网络化、智能化服务的不断深入，伴随服务衍生出的各类风险不容忽视。本期分享会的主题是《网络欺诈的风险与对抗》。五位嘉宾将从不同的技术领域和观察视角，围绕网络欺诈场景下的风险及对抗技术展开分享。

以下是王骞教授的演讲。

【武汉大学王骞分享】从数据视角看，如何安全地实现更好的AI

演讲嘉宾 | 王骞

武汉大学教授、网络安全学院副院长

ATEC科技精英赛高级咨询委员会专家

《智能系统数据安全》

大家好，我是武汉大学的王骞，今天我给大家分享的题目是《智能系统数据安全》。随着移动互联网飞速发展、硬件设备持续升级、海量数据产生以及算法不断更新，人工智能的发展已呈势不可挡之势，逐渐渗透并深刻改变着人类的生产生活。深度学习相关技术及其应用的发展令人瞩目，人工智能离人类生活越来越近。毫不夸张地说，AI已“入侵”到人类生活的方方面面。

AI与安全的关系

人工智能和安全有着密不可分的联系。一方面，人工智能技术能被运用到许多安全应用场景，提高其可用性和安全性；同时，AI技术也是一把双刃剑，不法分子可以滥用AI技术破坏其他系统。另一方面，安全和隐私保护的相关技术也能进一步完善人工智能系统。毋庸置疑的是，AI可以作为安全性增强的武器。近年来我们见证了AI在网络安全、安全态势感知、智能安防、生物认证等多个领域的快速崛起。与此同时，AI 技术也可能被滥用，以deepfake为例，攻击者可以利用深度伪造技术伪造图片、视频、音频等，用于诈骗、传播虚假的新闻，甚至伪造政治风险。此外，一些相对成熟的AI 技术，诸如人脸识别等，也有被滥用的趋势，如恶意侵犯用户的隐私、追踪以及分析用户隐私数据等。

尽管人工智能被认为是将深刻改变人类社会生活、改变世界的颠覆性技术，但是与任何一种先进技术发展和应用的过程类似，当面向用户的服务越来越成熟，客户资源逐渐增长，最终安全性会成为进一步广泛部署人工智能系统的最大挑战。以自动驾驶为例，自动驾驶车辆安全事故频发，造成严重的经济损失、甚至人员伤亡，对公共安全造成极大威胁。除此以外，其他针对AI自身安全的威胁，尤其是针对AI模型或数据的机密性、完整性甚至可用性等各类潜在威胁，也层出不穷。鉴于此，我们的研究将重点聚焦在AI自身安全方面，即如何安全地实现更好的AI。

在此，从信息安全的三要素CIA，也就是机密性、完整性、可用性的角度出发，广义上理解AI安全的含义：机密性是指防止敏感数据泄露，在AI系统中，敏感数据可能是训练数据、模型，或者用于推理的用户数据。相关的研究方向主要有加密模型训练与推理、推理攻击及其防御等。完整性是指在传输、存储信息或使用数据的过程中，确保它们不被未授权的篡改或在篡改后能够被迅速发现。针对AI系统可能存在通过篡改输入样本使模型识别出错的对抗样本攻击，或通过篡改训练数据使训练得到的模型功能异常的数据投毒等。可用性是指对AI系统的合法使用，其主要考虑针对智能系统的安全身份认证，即智能系统的访问控制通过基于“智能”的身份认证，让用户合法使用数据或模型。

在AI系统中，数据的流转过程主要分为以下几个阶段：在服务器端，训练数据经训练过程得到模型，服务器可将模型或其接口开放给用户使用，或将模型再部署到智能系统上。在客户端，用户将其样本输入模型或智能系统，得到返回的识别结果。对应这个数据流转过程的各个阶段，按照CIA的概念，可将AI系统中已知的主要安全问题与研究方向大致归为以下几类：

针对训练数据集，存在数据投毒与后门攻击为代表的完整性的问题；

针对训练过程，存在如何验证结果正确性的完整性问题，与保护敏感数据的机密性问题；

针对模型以及部署了模型的AI系统，存在对抗性攻击、传感器欺骗等完整性问题，成员推理等机密性问题，以及关于系统合法使用的可用性问题。

在这些方向上，我们近几年已取得了许多的成果，包括投毒、后门攻击及其防御，隐私保护的模型训练与推理，可验证的模型训练，对抗样本攻击及其防御，训练数据窃取与模型窃取攻击，智能系统身份认证攻防等。我们希望通过这一系列研究，能有助于整体上提高AI系统从构建到使用的安全性。在应用场景方面，我们的研究成果可用于提升包括语音、图像、文本等多模态数据的识别分析系统安全能力，为从互联网收集、传感器采集等渠道获取到数据的可靠分析提供充分的保障和支撑。

训练阶段

从模型流转的整个过程来看训练数据集所面临的两种安全风险：数据投毒和后门攻击。训练人工智能模型需要海量的数据，数据集的质量对模型的训练起着至关重要的作用，一旦恶意数据被用于模型训练，就可能影响模型部署时的性能。在现实场景下，海量数据来源多样、采集过程难以管理、预处理过程复杂，这些会带来数据集层面上的安全威胁。最近UC Berkeley团队发现，当在联邦学习中，有恶意的参与者仅投毒自己的子训练数据集，并不控制其他人，就能够实现扰乱最终模型的行为。具体来说，当模型学习有毒的数据后（即数据投毒），其性能会有大幅度的衰减（无差别攻击）或者模型中嵌入了攻击者设定的恶意后门（后门攻击）。

数据投毒和后门攻击既有联系，也有区别。在概念上，投毒是一种攻击的手段，数据投毒指的是通过篡改训练数据来影响模型的所有攻击形式的统称。后门是一种攻击的效果，后门攻击指的是向模型中植入特定的模式，在模型推理阶段，一旦模型中的后门被恶意数据触发，模型就会按照攻击者指定的方式工作。后门攻击可以通过数据投毒的手段来实现，攻击者可以通过向训练数据中注入含有“触发器”的恶意样本来向模型中植入后门。后门攻击也可以通过迁移学习、知识蒸馏等其他方式来实现模型到模型的传播。投毒攻击可以达到后门攻击的效果，投毒可以将数据中的恶意模式植入模型。投毒攻击也可以通过数据倾斜、反馈武器化、逻辑污染等其他形式实现，使模型的准确度或者在特定类别上的性能下降。数据投毒和后门攻击两种威胁也真实存在于现实生活中。数据投毒的典型案例有：2018年，有报告指出，多个垃圾邮件团体通过将大量垃圾邮件上报成正常邮件，来向谷歌邮件的垃圾邮件过滤器发起投毒攻击；2017年，一群特朗普的支持者在多个应用商店平台上给新闻媒体打低分，以此拉低新闻媒体应用在商店内的排名；2015年，有黑客组织向反病毒工具virustotal上报恶意样本，试图让病毒检测服务将正常文件错误识别成病毒文件。已有的后门攻击案例包括：对人脸识别系统的后门攻击，被攻击的人脸识别神经网络会将含有触发器的人脸识别为特定人物；还有针对自动驾驶模拟器的后门攻击，被攻击的自动驾驶系统会对交通指示牌识别出错，造成交通事故。

近年来，关于数据投毒攻击和后门攻击也取得了一些研究进展。数据投毒攻击的研究可以分为针对无差别的攻击研究和针对后门攻击的研究，其中包含了针对特定系统的攻击研究、针对投毒的数据集保护研究、还有新型投毒方式的研究等。后门攻击的研究可以分为有污染数据和干净训练集两种主要类型，其中包含了针对后门植入方式的研究、针对后门可迁移性的研究、还有新型触发器形式的研究等。

与现有工作任意设置后门触发器的位置形状不同，我们精心设计了一个基于注意力机制的后门触发器模具选择算法，通过将触发器放在对预测结果影响最显著的关键区域，可以大大提高触发器的影响。为了使后门触发器更自然且不易察觉，我们在后门触发器生成的损失函数中引入了体验质量 (QoE) 项，并仔细调整了后门触发器的透明度，从而达到规避人眼视觉检查的作用。因考虑到后门攻击中，攻击者可以同时操纵输入和模型，即触发器扰乱输入样本、并将后门注入到模型，因此与现有方法（分割后门触发器以及污染模型的步骤）不同，我们使用协同进化策略，同时优化后门触发器和目标模型，进一步提高攻击成功率。在协同优化后门触发器的生成和后门注入的过程中，我们提出了一种交替再训练策略(即不单一使用后门数据重训目标模型注入后门，也间隔使用良性数据训练目标模型），该策略被证明在提高干净数据准确性和规避一些基于模型的防御方法如MNTD(2021 S&P) 方面是有效的。

我们通过对6个数据集的大量实验来评估ATTEQ-NN。结果表明，当毒化比例较低时，与基线相比，ATTEQ-NN可以将攻击成功率提高多达82%。我们证明了ATTEQ-NN在不同光照条件和拍摄角度下在物理世界中也是有效的，攻击成功率达到了37.78%以上。ATTEQ-NN在迁移学习场景中也很有效，同时ATTEQ-NN 被证明可以避开最先进的防御方法，包括模型修剪、NAD、STRIP、NC 和 MNTD。

回顾AI系统中的数据流转过程，在考虑过训练数据集中存在的安全问题后，接下来是训练过程中的安全问题。首先是训练过程中的隐私风险与保护问题。如今互联网公司大都会通过采集大量用户个人信息训练模型，以改进其服务质量的方式来盈利。而用户数据往往会包含许多个人敏感信息，随着人们隐私意识的提高以及相关法律法规的完善，规范化用户数据采集已成为今后的趋势。不仅如此，一旦用户数据由于保管不当被泄露，将会造成恶劣的社会影响。除原始数据直接泄漏问题，一旦攻击者能够获取训练过程中模型参数或者梯度等信息的更新，它就能够从中更容易地获取到关于训练数据的部分信息。典型的例子就是联邦学习场景，参数服务器能够获取到所有参与者的参数更新情况，而对于参与者，也可能从服务器返回的聚合模型中推测出关于他人的一部分参数更新情况。现有研究已表明这些信息足以帮助攻击者重建出关于受害者的部分训练数据。因此，如何能够在保证数据安全的前提下对其进行利用，是AI技术今后发展所面临的一个重要问题。

当今实现隐私保护机器学习的主要途径主要有四种：一是直接在密文数据上运行学习算法；二是借助可信硬件的机密性特性，将敏感数据放在可信环境中解密和运行学习算法；三是在训练过程中添加差分隐私噪声，防止模型泄漏训练数据的信息；四是采用联邦学习的方式，数据持有者在本地进行训练而仅共享训练结果。

在隐私数据窃取方面，我们探索了联邦学习场景中，当服务器可能为恶意时的隐私泄露风险，并提出了一种基于GAN的用户训练数据重建攻击。在训练过程中，服务器在与参与者共同完成模型训练任务的同时，额外训练一个GAN，其中的生成器用于仿造用户数据集中的样本，判别器则帮助改进仿造的结果。在每一轮训练中，服务器根据受害者上传的参数首先构建出能与其获得相似结果的数据表征，并连同更新参数一同用于训练GAN中的判别器，以此不断改进生成器重建出的样本与原始训练数据的相似程度。实验结果显示，对比其他的同类攻击，我们的方案重建出的图像与训练数据更为相似。

除隐私问题之外，在训练阶段还存在着如何验证AI算法正确执行的问题。即我们是否能够验证AI算法是否正确按照我们的想法去执行。不可信的AI服务提供商可能并没有完成他们声称的任务，却夸大了他们的工作来获取不当利益，例如通过向用户返回伪造的训练模型或推理结果节省计算成本从而赚取更多利润，或者夸大他们没有实现的技术来吸引投资者等。现实中，这类问题已发生过多起。知名云计算服务亚马逊AWS就曾出现过超额向用户收费的问题；印度AI初创公司engineer.ai曾宣称他们使用AI技术自动开发app以吸引投资，但实际上却使用人力进行开发；谷歌的duplex语音助手也曾被指出约有四分之一的调用是由人类来回应的。因此，不管是个人用户还是大型公司，在使用他人提供的AI技术时，都有着验证该技术正确性的需求。

目前，关于如何实现可验证的机器学习，现有研究还较少。目前主要有三种解决方法：第一种是采用基于密码学的可验证计算技术，能够为全部计算步骤提供严格的完整性保障。第二种是采用统计分析的方式，通过分析模型训练过程中不同迭代参数间的距离变化来确认计算的完整性。第三种是借助可信硬件的完整性特性，在可信执行环境内部运行学习算法。我们在该方向上做出了早期的探索，提出了首个基于密码学的训练过程完整性验证方案，已发表在TPDS’21上。该方案的核心思路是计算方在训练过程中生成关于中间结果的证明，验证方则通过随机抽取少量迭代步骤并使用zksnark技术来验证相应证明的方式，从而以高概率快速验证计算任务的完整性。相比重新执行一次完整计算任务的原始验证方式，该方案所需的额外时间开销要低一个数量级。此外，该方案同时也支持对模型推理的验证、关于计算结果的公平交易等功能。

识别阶段

关于识别阶段的安全性威胁。在模型识别阶段，我们可以进一步将攻击面细化。以图像和语音识别系统为例，在识别阶段，物理世界下的数据通过传感器转化为数字化数据，再经过智能识别模型得到最终决策。根据目标攻击对象的不同，可以分为两类攻击：一类是针对机器学习识别模型的对抗样本攻击，包括物理域/数字域攻击、黑盒/白盒攻击、图像/语音/文本识别攻击等；另一类是针对传感器的sensor spoofing attacks（传感器欺骗攻击），他们的攻击对象是传感器，通常通过物理域攻击手段，攻击识别系统的物理部件，达到破坏识别的目的。我们也可以将这类攻击称为“拟”对抗样本攻击。抽象而言，对抗样本攻击是通过加入人眼无法察觉的细微扰动造成模型错误输出。对抗样本有两个约束条件，其一是“隐蔽性”，即对抗样本应该尽可能和原始样本接近，以不被人察觉；其二是“对抗性”，即对抗样本应该能使模型将其错误识别为目标类别。

对抗样本能成功导致系统识别出错的本质原因在于模型识别具有鲁棒性。通常，由识别模型具有鲁棒性，训练模型的决策边界和实际的决策边界具有差异性，该差异性则成为了“对抗样本”的攻击面，在该范围内的样本，既满足“对抗性”（识别出错），又满足“隐蔽性”（与正常样本距离近）。

近些年来，已经有大量关于图像对抗样本的研究，涉及视觉、语音、NLP等多个领域。例如，在人脸识别系统中，可以通过在原本人脸上添加精心构造的对抗性镜框图案，使得目标系统识别成指定用户。此外，另一个比较严重的安全隐患是攻击者可以利用这种技术，伪装成目标用户，非法登录以“刷脸”为认证手段的支付软件，将其资金转出，对经济利益、个人利益造成巨大伤害。

除了视觉领域，语音领域同样有许多关于语音对抗样本的研究。尤其是近年来针对智能语音识别系统的攻击。我们近期发表在CCS21的工作，也针对最新的知名智能语音系统，包括苹果Siri，微软Cortana，Google Assistant，Amazon Echo等，成功生成了基于语音的对抗样本攻击，并提出了相关防范的建议。类似地，语音对抗样本也是在原始良性音频上添加微小噪声，使得模型将其识别为目标结果，同时保证人耳听上去仍是原始音频的含义。近两年，在比较热点的自动驾驶领域也有许多针对对抗样本的研究工作相继被提出。例如通过在交通指示牌上贴贴纸，便可以使得自动驾驶汽车识别错误，造成重大交通事故。

其他类似的恶意对抗样本示例包括：针对车载语音识别系统，恶意注入语音控制命令，或者恶意扰乱车载路障检测系统的正常运作等。对抗样本的攻击对象是识别模型，还有一类工作则是通过欺骗预处理阶段的传感器，从而达到识别出错的目的。例如比较有代表性的工作是海豚音攻击，它通过超声波播放器把语音命令调制加载到超声波信号中，利用麦克风本身的漏洞，在人耳无法察觉到的情况下攻击目标语音识别系统。

针对图像/语音/文本识别系统的对抗性攻击这几年已经得到了广泛的研究。针对识别阶段的对抗性攻击大致可分为传感器欺骗攻击和对抗样本攻击，根据数据种类的不同，对抗样本攻击又可以细分为图像对抗样本、语音对抗样本。图像对抗样本根据攻击者的能力，可以简单分为白盒攻击和黑盒攻击。白盒情况下攻击者能够获知机器学习模型的参数。而黑盒情况下，攻击者只能与机器学习的系统进行交互，不知道模型具体细节。在初期阶段，大家主要研究白盒攻击，但白盒的假设较强。为了提高实用性，近几年大家重点研究黑盒情况下的对抗性攻击。

语音对抗样本方面，在我们CCS21的工作中，针对商业语音平台，提出了两种黑盒语音对抗攻击方案—Occam和 NI-Occam。Occam的攻击对象是云上语音识别API，能在只依赖识别结果的情况下，生成具有100%攻击成功率的语音对抗样本。Occam是首个decision-only的黑盒攻击，在decision-only的条件下，我们面对的是离散的问题。针对这一挑战，我们首先将对抗样本构造转换为一个直接在模型输入空间上优化的方法，从而克服了非连续优化的难题。具体来说，我们将问题归纳为在输入空间上的大规模全局优化问题，然后利用协同优化框架、cma-es等优化方法解决该复杂问题。Occam成功攻击了包括谷歌、微软、阿里等7个语音API，同时达到了100%的攻击成功率。

针对物理域的语音控制设备，我们还提出了一种非交互式的黑盒攻击——NI-Occam。在物理攻击场景下，使用扬声器播放的语音对抗样本需要通过空气信道传播才能被语音控制设备接收。而来自物理信道的信号畸变，可能会导致对抗样本失效。为了克服这一困难，在自然命令的灵感启发下，我们发现，正常的语音不论在多么嘈杂的环境中传输，总能被语音控制设备正确识别，即正常语音天然地能抵抗物理信号失真。基于这一发现，我们可以在本地白盒模型上训练一个对抗样本，使它具有与自然命令相似的关键部分，且能够不受物理通道影响成功被目标设备识别到。同时，受到模型反演的启发，即我们可以从输出恢复出模型的关键部分甚至是输入。借助模型反演技术的思想，可以将原始音频看作模型输入，并将目标语音命令看作模型输出。经过多轮迭代后，便可以“反演”出目标语音命令的关键部分，并将其“嵌入”到输入音频中。此时，该音频具有对抗性，并能被目标设备识别成目标命令。我们的攻击成功率达到了52%，成功攻击了Apple siri、微软Cortana等常见的语音助手。在客户端，恶意的用户也能通过查询模型，来窃取服务器端的训练数据或模型信息。

关于模型反转攻击：攻击者想要通过模型恢复该模型的训练数据，其利用模型预测结果来恢复出当前类的数据样本。具体来说，通过查询模型获得预测结果，并使用优化的方式最大化目标类别的预测置信度，从而恢复出目标类别的原始特征。模型反转攻击泄露了模型的训练数据信息，一方面对模型的隐私造成重大威胁，另一方面，模型反转攻击可以作为对抗样本攻击和后门攻击的跳板，对模型的安全性造成重大威胁。除恢复数据集之外，攻击者还想要判断模型训练是否使用了自己的数据，即成员推理攻击。基于这样一个事实，模型会记住训练数据，因此训练数据和非训练数据会有着不同表现。因此，在判断阶段，将手中的数据样本喂给模型，模型给出一个返回，然后基于这个返回来判别，当前样本是否属于训练数据集。

前两种攻击更多的聚焦于训练数据，其实模型本身是一种产品，具有知识产权，最近有许多研究尝试去偷这样的产品，即模型窃取。模型窃取是利用模型的预测结果构造一个与受害者模型相似的替代模型。攻击者查询黑盒模型API获取预测结果，然后用此输入输出对训练pre-trained模型即可得到替代模型。模型窃取攻击违背了知识产权，一方面攻击者可以省去再次查询API的费用，另一方面模型窃取也能作为实现其他对抗性攻击比如对抗样本攻击的跨板。这类攻击实际上是对于其他类型的攻击，在整个攻击的环境当中，它可能会起到更加关键的作用。

回顾模型隐私的相关工作：基于不同的攻击目标，不同的攻击目标可分为模型反演，成员推理和模型窃取。其中模型窃取可以根据查询样本分为两类，基于自然样本以及基于合成样本的攻击。自然样本是指直接从网上下载的公开数据集，比如imagenet。合成样本比如对抗样本。这个方向上，我们探索了模型隐私与数据隐私间的关系。例如我们发现利用模型反演攻击获得的数据能够实现效果更好的模型窃取攻击。因为反演样本和原始数据更为相近，从而大大增加了替代模型与目标模型的相似程度。具体步骤分为四步，第一步是建立初始替代模型，然后利用此时的替代模型选取高置信度样本去构建反演模型，之后输入训练样本的置信度到反演模型即可得到反演样本，最后利用反演样本去进行模型窃取。实验显示，在10k查询样本的情况下，inversenet就可以达到较高的相似程度，大于80%。在小query budget下，如10k，替代模型的相似度比最先进的baseline (Activethief)替代模型的相似度高22%。

部署阶段

最后，我们研究了关于系统可用性的问题，即如何授权合法的用户使用智能系统。整个数据流转在AI系统的生命周期中，最后一个是模型的部署阶段。在此阶段，也包含许多安全问题，但我们的focus在身份认证。随AI系统越来越智能化，身份认证的方案也越来越智能化，大多采用基于生物特征的方案来进入智能系统中使用，这就是防控智能的过程。在此，我们集中考虑的是基于生物特征的身份认证方案。要进入现有的语音识别系统、人脸识别系统的，需经过身份认证，此身份认证需涉及多种方案。例如生物特征的方案，包括基于虹膜的、基于指纹的、基于语音的、基于人脸的，我们在此方向也做了大量工作。