前沿论文 | 谷歌OpenAI联合发布AI安全五大准则，取代机器人三定律预防科技暴走（下）

本文作者：陈圳

2016-06-28 17:07

导语：本文介绍AI中常见的具体问题及其解决方法

今天我们带来了谷歌安全五大定律的下篇，经过详细的论证，谷歌给出了一个可执行的AI的安全问题设计框架。让对于AI的限制的问题不再仅限于假设和推测，对今后深度学习系统的设计有不错的参考意义。

5. 可拓展的监管

想象一个有智能代理执行一些复杂的任务，比如清扫机器打扫办公室。我们会希望智能代理能最大限度地完成这个复杂的任务，就好像“如果使用者花费几个小时仔细检查结果，他们对代理的表现是否会满意呢？”我们没有足够的时间对每一个实际训练提供监管；为训练智能代理，我们需要依靠相似情况，例如“使用者看到办公室时是否开心？”或者是“地板上有明显可见的污迹吗？”。这些信号能在训练中有效地测评，但却不能保证是我们所关心之事。误差会加剧问题，就像是未被注意的副作用（副作用来自于简单相似情况的忽视，会被复杂目标所惩罚）和入侵反馈（这个通过评估会被认定为不被重视）。我们通过开发有限的检测预算能改善此类问题。

考虑此问题的框架是半监督的学习巩固，此学习巩固表示的是日常学习巩固除非代理能在短时间内完成回馈。代理表现的评估还是基于所有经历的反馈，但它必须基于它所见的有限的回馈实例进行优化。

积极的学习设置看起来是最有趣地；在此设置下，代理能要求去看任意经历和时间段的反馈，只要能对学习有用；并且目标是达到反馈请求和总训练时间的最优。我们同时也要设计一个随机设置，在此情况下，反馈在时间和经历的随机子集和中间的可能性中可见。

通过忽略不可标记的经历和对可标记的经历进行RL计算，我们可以规定表现的基准线。但将会导致学习进行缓慢。挑战在于利用未标记的经历来加速学习，理想的学习是如同所有的经历都标注一样的迅速且准确。

半监督RL的一个重要子任务是辨认预测反馈的代理服务器和学习代理服务器有效的情况。例如，如果人类给了清理机器人详细的评价反馈，它就能学着询问人类“房间是否打扫干净？”这能为反馈功能提供一个非常有用的相似情况，而机器人最终也知道检查是否有可见污迹是更便捷但始终有效的相似情况。这也能让机器人使用极少数的具体评价学会好的打扫策略。

更广泛地说，半监督RL和可靠但较少的验收标准能刺激机器人的交流和透明度，因为机器人想要尽可能得到代理服务器的反馈，不管它的决定最终是否会得到高反馈。例如，地毯下藏着的污迹会破坏使用者反应和实际反馈信息之间的联系，但同样也可避免。

我们能为半监督RL想到许多可能的方法。例如，

监督的反馈学习：训练一个模式去预测基于半时间段和半经历的反馈，并使用它和恰当的权衡或不准确的评估，去评价未标记经历的结果，而评价的误差源于对已评价的或已知的反馈的低信心。此模式版本的学习和人类的反应可作为一个反馈。许多现存RL方法已经适合与反馈预测者相似的评估（带有明显基准线的政策梯度方法，显示这种方法是明显可行的。

半监督或活跃的反馈学习：为更快学习反馈评估，联合之前传统的半监督和活跃的学习。例如，机器人能学着在环境中辨认“突出”事件，并要求看与这些事件有关的反馈。

无监督的值迭代：使用未标注经历观察到的转变做出更准确的Bellman更新。

无监督的模式学习：如果使用基于模式的RL，使用未标注经历观察到的转变去提高模式的质量。

拿玩具举例，半监督的RL机器人应该能通过少量直接反应回馈信号学会玩Atari游戏，而回馈信号大多数是直接基于可是表现的评分。这个简单问题能拓展去解决其他安全问题：例如，机器人在未修改真实分数情况下，能修改展示的分数；或它必须采取特殊行动（比如暂停游戏）为看它的评分；或它必须学会一系列增加的大概相似情况（例如，学习一些声音与积极的反应联系在一起，而一些声音与消极的反应联系在一起。）或者，没有可见的分数展示，机器人能从少数明确的反馈请求学会如何玩（“在敌人的船炸毁的情况下，我得到了多少分？那更大的敌船又如何？”）

对半监督RL而言，有效方法的第一步是提供可评估监督和缓解其他AI安全问题。不管它与安全问题的相关性，对学习的加强是十分有效的。

拓展监督的其他方法：

远程监控。我能提供在加速中一些关于系统决定的有用信息和关于正确评估的线索，而不是提供系统小部分决定的信息。在半监督或监督薄弱的学习中，有做过一些工作。例如，普遍化的期待标准要求使用者提供大众级别的数据（例如，告诉系统平均每一句话至少包含一个名词）；DeepDive系统要求使用者提供能产生许多微弱标签的规则；并从最初的低重复标注规则推断出更普遍模式。这个普遍的方法经常涉及到远程监控，在自然语言处理共同体中最近受到了关注。扩展这些线性工作并运用这些工作处理代理情况，代理情况下的反馈是相互作用的并且独立且同分布。拓展线性工作能提供扩展监督的方法，而这一方法与在半监督RL具现化的方法是互补的。

分层强化学习。分层强化学习为拓展监督提供了另一种方法。顶级代理只需一小部分高度抽象的行为，并且此行为在空间和世间都有大规模扩展。代理通过委派动作给副代理来完成动作，而此项行为刺激产生真实反馈信号，信号的产生就表示动作的完成，紧接着副代理再任务委派给下一级副代理。在最低一级，代理会在环境中直接做出反应。

在RL等级中，最高层的代理能从较少的回馈中做出反应，因为它不必学习如何实施政策的各项细节。与此同时，即使顶级反馈较少，下一级代理也能收到较多的反馈信号，因为他们在优化由上级代理所定义的真实反馈信号。所以一个成功的RL分层方法能自然而然地促进监督的拓展。

在联合分层RL和神经系统功能相似部分的前提下，分层RL似乎是一个监督的好方法。

潜能测试。在基本控制运行环境下，测试半监督RL将会是一个极其简单的方法。如果随机反馈只能提供10%的经历，我们能否学得如同提供所有经历一样地快？在此项任务中，反馈机制十分简单，所以成功的几率会是十分相似。下一步要在Atari游戏上实验。积极的学习案例会十分有趣----大概仅从一小部分请求样本中（如在Space Invaders 敌船被摧毁的框架）就能推断出反馈框架，因此能在完全无监督的模式下玩游戏。

6.安全探测

所有智能代理有时需要参与探测-----采取在当前情况下看起来不理想的行为，但能帮助智能代理了解周围的环境。但是，探测十分地危险，因为涉及到一些智能代理不能很好理解的行为。在游戏环境中，例如Atari视频游戏，会限定结果的破坏程度----智能代理会丢掉一些分数，或是跑进敌方阵营并承担一些破坏。但是现实世界更没有如此地宽容。错误的行为会损坏智能代理或让它陷入无法摆脱的境地。无人驾驶直升飞机会撞到地上或是破坏财产；工业控制系统能造成严重的问题。一般探索规则，如epsilon-greedy或R-max，通过随机选择行为或乐观地测试未被开发的行为，所以并未采取行动避免危险情况。在拓展的世间规模采取连续的探索政策是更复杂的探索策略，而此策略会有更大的危险几率，因为连续选择的错误政策会比随机的行为危害更大。但是即使我们对运算环境所知不多，直觉上连续选择能预测那个行为是危险的，并能探索避免的方法。例如，如果我想了解老虎，我是应该买一只老虎？还是买一本关于老虎的书？只需一些关于老虎的先前知识，就知道哪个选择更好。

在实践中，RL计划能通过简单的硬编码避免灾难性行为以解决此类问题。例如，RL控制的无人直升机能通过一个硬编码的灾难避免序列去推翻它的政策。(例如快速转动旋螺桨以增加高度)。当只有少部分事情会出错时，这种方法能进行地十分顺利，并且设计者也能提前了解所有情况。但当代理变得越来越智能且在更复杂的域名内行动，准确预测所有可能的灾难性失败会变得越来越困难。代理运行强大网络和寻找-找回行为的失败模式空间会很大。在这些情况下用硬编程来应对所有可能失败不可行，所以用原则性更强的方法去阻止有害的探索变得十分重要。即使在最简单的情况下，比如无人驾驶直升飞机，原则性较强的方法能简化设计系统并减少特定语域编程的需要。

关于安全问题探索的文献相当多---在本文中我们会讨论问题中最重要的部分。我们不会在此广泛地回顾文献，但会简单描述本次试验所采用的一般方法，并会提出一些关于提高RL系统规模和能力的建议。

风险敏感表现标准：从期待的总回馈到另外的目标，这些目标能更好的阻止罕见，灾难性的事件，现存文献考虑改变优化标准。这些方法涉及到优化最坏表现，或是保证错误行为的可能性十分低，或是会惩罚行为误差。这些方法并未被用于表现功能相似性测试，例如深层神经网络，但一些方法的原则上应该是可行。最近一些研究是测试深层网络神经系统在价值评估方面的不确定性；这些想法能容入进风险评估的RL算法。另外一个与风险敏感有关的线性工作使用非政策评估去执行政策更新，此方法成功的可能性很高。
使用示范：探索对于代理确认接近性能最优十分重要。如果我们不使用反向RL或是学徒学习，在此情况下，学习算法具备接近最优行为的专业轨线，我们能避免探索的需要。使用深层神经网络去学习功能或政策代价的反向学习巩固中取得了进展，且进展表明通过训练小部分示范能减少在高级RL探索的需要。此类示范能用于创造政策基准线，到这种程度之后即使深度学习十分重要，不基于政策基准线的探索也能被限制重要性。

模仿探索：我们能在模拟世界中而不是真实世界中做探索，发生破坏的机会就会越小。在真实世界中做一些试验十分有必要，因为不是模拟器不能完美再现所有的复杂情况，但能在模拟中对危险了解更多，并在现实世界中行动时采取更加保守的策略。在虚拟环境中训练代理（尤其是机器人）已经十分的普遍，所以“以探索为重点的模拟”取得进步能很容易融入当前的而工作流程。在涉及到学习和发展的连续循环系统中，有一些与如何逐渐更新安全问题政策相关的有趣研究问题，考虑到以探索为基础的轨线不能完美反应这些政策的后果和可靠正确的脱离政策的轨线。

有界限的探索：如果我们知道空间的一部分是安全的，这样即使是最坏的行为也能挽回或是限制危害，我们能让代理在此界限之内自由运行。例如，在直升机离地面足够远时，它就能安全地进行探索，因为即使出现问题也能让人类和另外一个政策有足够的时间进行挽救。更好的情况是，如果我们有一个模式，就能提前推算出这一动作是否会把我们带离安全境地。安全能被定义为在余下的空间各态中行为都是可逆的，或是重大失误只会造成较少的损失。因为有其他的方向，把这些方法改编或是运用于先进发达的RL系统将会有广阔的前景。这个想法看起来与H-infinity控制和区域验证有关。

可信任的监督：如果我们有一个能信任的政策和运行环境模式，我们能限制被政策所信任行为的探索，并进行恢复。向下猛冲的行为可做，只要能及时制止。

人类监控：另一个可能是由人类检测潜在的危险行为。不幸的是这个方法碰到可拓展监控问题：代理为让人类监控可行必须做出足够多的探索行为，或是运行够快让人类进行评价。挑战的关键在于，代理能做好判断哪些行为是真正的危险，哪些是安全可单方执行的行为；另外一个挑战是在等待监督时找到恰当的安全行为。

潜在试验：有一系列的游戏运行环境是很用的，在此环境中粗心的代理会轻易调入进行危险行为探索的陷阱，但有足够的模式应对灾难失误，且聪明的代理能预测和避开。在一定程度上，这些特征早已存在于无人直升飞机竞赛和火星漫游模拟之中，但发生灾难的风险十分怪异，以至于经过训练的代理都能过度拟合。一个真实广泛的环境设置包括概念上明显的陷阱，这会导致粗心的代理收到极其消极的反馈其中包括物理上和概念上的灾难，而这能帮助高级RL系统进行安全探索的发展。此类一系列运行环境可承担标杆学习的角色，其最终目标是发展能在一系列环境中学会避免灾难的单一结构。

7.分布改变的坚固性

我们有时会遇到一些用我们之前经历无法解决的情况----例如，开飞机，去一个与自己国家文化完全不一样的国家旅游，或是第一次照顾小孩。此类情况不可避免会很难处理也会导致一些失误。但是，解决此类问题的关键在于意识到我们的不足，而不是简单的想象我们用处理其他问题的直觉能成功瞒过去。机器学习系统也有类似问题-----在安静环境训练的语音识别系统在嘈杂环境中表现的十分差，但对错误分类十分有自信（一些作者曾经就语音识别系统进行过个人观察）。在清扫机器人的例子中，粗糙的清理物质在用来清理工厂时，十分有效；但在清理办公室时会造成损坏。或者办公室会有宠物，而机器无法识别，它会试着用肥皂清洗，所以很显然会导致教坏的结果。一般来说，当测试的分布与训练时的分布不一样，机器的学习系统会表现的非常差，但它会错误地认为自己表现得不错。此类错误会有害---分类器会自信地做出错误地诊断，尽管它的自信不符合人类的期盼，或是语言模式会输出冒犯性的文章，但却也认为没有问题。对于在世界上的智能代理，会有发生更坏事情的可能----例如，智能代理可能会使电网超负荷，但它却自信地认为部分区域电力不足，所以总结出急需更多的电力，超负荷是不可能。更加广泛说，任何代理只要是未在正确的分布中处理，它的感觉或是探索式处理过程会错误地理解自己的处境，因此会做出危险行为且不能意识到自己所做是危险的。除此之外，如果系统在现实世界中遇到与训练不同的情况，依赖于训练过的机器学习系统的安全检查（例如，我的视觉系统相信这条路是干净的吗？）可能会无法预计地失败。寻找一个好方法去探测此类失败，并且能最终有发生频率的确切数据对建立安全可预测的系统十分关键。

对于准确性，我能想象如果一个机器学习模式在一个分布（p0）中学习,但却在潜在的不同的测试分布（p*）中运行。我们有很多其他的方法来解决此类问题（例如，在网上学习中设置观念转移），但我们会寻求简单，关注之前的问题。其中的重点是我们可能会在训练中遇到大量的已标注的数据，但很少或是没有未被标记的数据。我们的目标是确保模式在P*环境中合理运行，也就是在P*运行很好并且运行不好时，也能自己意识到。（理想状态是能通过采取保守措施或是征求人类意见，避免或是缓解错误行为）。

此类问题涉及到许多领域，包括改变探测，异常探测，假设测试，迁移学习和其他等等。我们将会描述一些解说性的方法并列举出它们的长处和不足，而不是在文中详细回顾。

特定模式：相关变量变化和边缘化可能性。如果我们主要做预测工作，让x指代输入，y指代输出，那么其中一个可能就是做出相关变量假设p0(y/x)=p*(y/x)。在此类情况下，假设我们能够p0(x)和p*(x)建模，我们能通过再权衡每一个训练实例p*(x)/p0(x)的(x,y)来进行重要性评估。评估过重要性的实例能让我们评价p*的表现，甚至是再训练模式更好执行p*。这种方法受限于重要性评估的差异，这种差异非常大甚至于无限，除非p0和p*非常接近。

实例再评价的备选方案涉及到假设一个特定的模式家族，在此情况下，预测p0和p*只有一种最优模式.这个方法的局限在于，到目前为止，这种模式在实践中经常错误定位。但是它能通过采用高表达模式家族来克服，例如复制Hilbert 空间，图灵机，或是有效表达神经网。在之后的情况中，最近有一个有趣的研究是使用引导程序去评估有限实例的变化，其中的变化一般是神经系统中的相关参数；这项研究对于更好理解这种方法是否能有效评估在实际表现，和引导程序设置下缺少弯曲或是特殊的当地最小值是如何影响方法的可行性十分重要。

目前为止的所有方法都依赖于相关变量强大且可测试的假设；后者的特性从安全的角度看问题很大，因为它能导致机器学习系统的无声故障。另外一个方法，不依赖相关变量变化且建立了一个能生产的分布模式。我们可自由假设其他不变性（例如，p(x)变，p(y)不变，或是特定独立情况保持不变），而不是假设p(x)变，但p(x/y)不变。这有达到一个进步，因为此类假设比变量改变的假设更以测试（因为它们不涉及不可观察的变量y）。但也有不利之处，在未确定的模式中，生产型方法比有区别型方法更脆弱----例如，大量经验文献表示，当模式被错误定位时，基于最大边缘可能的半监督生产型方法会表现的很差。

以上讨论的方法相较而言更依靠于有一个特定的模式家庭----其中包括真实的分布和真实的观念。但在多数情况下都会出现问题，因为现实比模式家庭所能处理的情况更加复杂。上文备注中有提到，使用表达的模式能缓解相关情况，例如kernels，图灵机，或是大量的神经网络；但还是有遗留问题：例如即使家族模式包含所有的图灵机，在有限数据下，我们实际上只能够在图灵机所给的描述长度内学习，如果图灵机描述现实超过此长度，我们就会陷入定位错误的范畴（换句话说，现实不能由图灵机描述。）
部分特定模式：矩量法，未被监督的风险评估，随意确认和有限信息最大化的可能性。另外一个方法是吧建立完全确定的模式家族当不可能，并设计不管此情况也能表现很好的方法。由此产生了部分确定模式----假设是关于分布的一些方面，但对于其他方面我们是不知道的。举个简单例子，在线性退化的变体中，我们假设y=(w*,x)+v, E[v/x]=0，但我们不对v做任何分布形式上的深度假设。事实证明这以足够辨认参数w*,并且这些参数会减少预期错误即使x分布发生了变化。有趣的是这个例子说明w*在不完整（部分）确定的分布中也能被辨认出来。

洞察能被大体概括如下，它是计量经济学中的矩量法的一个主要动力。计量经济学文献实际上为解决部分确定模式提供大量工具，包括有限信息最大化的可能性和有帮助的变量。

回到机器学习，矩量法最近在评估潜在变量模式取得较大成功。尽管目前的重点在于使用矩量法克服非凸性问题，同时它也能提供一种方法执行未监督的学习，基于情况独立假设而不是基于可能性最大化的强大分布假设。

最后，一些关于机器学习的研究只关注于将模式的错误分布建模，且可用这些进行判断模式表现是好还是坏。正式来说，其目标是实施无监督的风险评估---从这些测试分布提供模式和标注的数据，并测试标注风险的模式。这种形式体系充分利用训练和测试之间的不同—-即使测试分布与训练分布看起来完全不同并且我们看起来也无法输出正确的预测；但因为我们只需对风险作出大量的评估，无监督的风险评估也是可行的。通过在错误分布中假定某些条件性独立，能接近无监督的风险评估，并使用它去评测未标注数据的错误分布。除了假设独立性，另一种假设是错误高斯分布为基础的真实产出，y在此情况下是风险评估可归纳为高斯复合模式评估。因为这些方法仅仅关注模式错误但却忽略了数据分布的其他方面，所以也可被看做是部分特定的实例。

多样分布训练。在多样训练分布中训练，希望能同时在多种训练分布表现很好的系统也能在新颖的训练系统中表现出色。其中一个作者发现情况是这样的，例如，在自动语音识别系统中，能联合以上任意思想，并采取编程的方法试着发展设计能连续收集典型训练集的方法论，此方法论能用于建立能连续总结新颖分布的模式。能探索出未被训练数据所包含的情况并能正确做出反应，即使是对于这一方法也显得十分的重要。除此之外，有有充分强度测试分布的方法论与训练分布设置也是完全不一样的。

如何应对脱离分布。以上描述的方法都集中于当模式在新的分布中无法做出正确预期的探索。其中一个重要的相关问题是的在探测时需要做些什么。一个自然的方法是向人类询问相关信息，尽管在复杂的输出任务中，会对哪个是优先问题产生疑问；在时间紧张的情况下，问问题甚至算不上一个选择。

对于前一个问题，最近已经在模式不确定的结构定位方面和获得输出设置的校准方面都取得不错进步，但我们相信还有很多工作未做。对于后一个问题，基于获得能力分析的相关工作和强硬的政策提高为在不确定情况下实施保守政策提供了可能的方法；在我们的认知中，这种方法还未与探测模式超出分布的失败联合起来。

除了已构建的输出设置，代理可在环境（如，RL代理中）运行，关于在不确定情况下认知可信性的信息有潜在价值。在丰富的运行环境中，这些代理能选择收集能分辨认知的信息（例如，如周围太吵，可以靠近讲话者），；当不确定性高时，参与低风险实验（例如，在受控制的环境中尝试些危险的化学反应）；寻找能帮助认知系统曝光于相关分布的经验（例如，在带有口音的语音中进行听力练习）。人类能像例行公事般利用这些信息，但在我们的认知中目前的RL技术很难做到，或许是因为普及的RL运行环境还不够丰富，以至于能获得处理不确定的精细管理能力。恰当处理超出分布的信息对于作者来说会是下一代RL系统有趣且未开发的挑战。

统一的观点：反事实推理和带有契约的机器学习。一些作者最近发现在思考关于超出分布的预期时，有两个方法特别有效。第一个是反事实推理，在此种方法中会询问“如果现实在一定程度上不同会发生什么？”在某些程度上，分布转移能被看成是反事实的一个特殊类型，所以理解反事实推理能帮助系统应付分布转移。我们对运用反事实推理技术去处理机器学习问题感到十分振奋，尽管还存在着处理高空间和复杂的设置还未完成。

第二个方法是带有契约的机器学习----构建机器学习系统，此系统能建立一个关于机器行为的定义明确的契约类似于软件系统的设计；并列举出机器学习系统会失误的方法和会导致大规模机器维护和学习系统故障的问题。在我们的认识中最简单和最严重的失误是大多数机器学习系统极其脆弱盲从的契约，也就是它只在训练和测试的分布完全一样时才能表现的很好。

这种情况很难检测出，在现实中也很少见，但这对于建立在脆弱契约下也能表现很好的系统极具价值，且此契约能更简单地推理出。部分确定的模式能提供一个方法-----不要求分布完全一致，我们只要求在模式中的特定部分的分布匹配。可达性分析和模式修复为获得更好的契约提供另一种方法----在可达分析中，我们能在已知保守政策总能到达安全范畴的前提下优化表现主题；并且在模式修复中，能改变已被训练的模式确保部分需要的安全部分被保留。

总结。建立在新颖测试模式下也能表现很好的机器学习系统的方法有很多。其中一个方法是基于完全确定模式，在此情况下，最初的障碍是在实践中建立完全确定模式，就像是在无限的训练数据中如何保持在新颖分布中的不确定性；另一个困难是在模式错误定位时如何检测。另一个方法是假定只有部分模式确定，这个方法前景不错，但在机器学习中缺乏发展，因为大多数过去的开发集中于计量经济学领域；在这有一个问题是否半确定模式受限于简单问题和/或保守预测，或它们是否能测量现代机器学习运用所需的复杂情况。最后，试着在多样训练分布中训练，希望模式能在多样训练分布中表现良好，同时在新颖测试分布中表现出色；对于这一方法，用与训练模式完全不一样的的分布对模式进行强度测试极其重要。此外，能在输入过于新颖以至于不能做出好的预测时，也照样能做出预测也是同等重要的。

潜力测试：语音系统在超出分布时表现一向很差，所以“知道何时不确定”的语音系统将会是一个可能的实验项目。更确切的说，挑战会是：基于标准数据集训练一个先进的语音系统，它基于测试集，如吵闹有口音的语音，也能做出精准的校对。当前的系统因只在少部分训练集中训练，在实际测试中就表现很差；此外对它们自己错误的转录也表现的很自信。解决这一问题而不破坏原始的训练集会是一个重大进步，且极具使用价值。更广泛的说，设计出一个能基于新颖测试分布也连续测试表现的模式也会有重大意义。如果单一方法集能连续完成多种任务（如包括语音敏感测试，电脑标准检查程序），这能处理新颖输入方法集的可靠性。提到的这些在新颖分布中的表现测试对于让模式适应新情况有现实价值。最后，对于在创造一个RL代理必须学着翻译大型语音的环境和如何正确评价翻译错误也极具价值。

8. 相关工作

如在介绍部分提到的一样，一些其他的社区也曾广泛地考虑过AI系统的安全问题，这些社区有的是机器学习社区，有的却不是。在之前的部分我们已经详细讨论了机器学习社区出现的问题，接下来我们会简单说一下其他社区关于AI安全所做的努力。

信息物理系统社区：此社区的研究者们研究了安全系统与现实世界的互动。此项研究成功地核查了整个联邦飞行器的防碰撞系统。类似的其他工作包括交通管制算法和许多其他主题。但是此项研究没有多注意正式核实行不通的现代机器学习系统上。

未来主义者社区：一个跨学科和非盈利的学术家关注AI的长期使用，尤其是超智能AI。人类未来研究所特别研究过这个问题，因关系到AI系统的未来和保证未来人类的优先。智能机器研究所研究过许多先进AI的安全问题，特别关注高级问题如哲学和于AI系统长期考虑相关的决定理论。与此相反的是，我们关注的焦点在于现代机器学习系统的实际安全问题的经验研究，并且我们相信此项研究能应付大量的潜在危机，其中包括长期和短期的。

其它对于安全研究的要求：在研究社区中已有其它文献指出了AI安全问题研究的重要性。在2015的Open Letter中就有许多研究社区的成员指出了“如何受益于人工智能却避免其潜在危险”，提议优先发展人工智能的稳定和有益之处，包括除AI相关的意外的其它话题。

与安全相关的其它问题：许多人工智能或是其它领域的学者都开始思考AI技术的社会影响。除了直接研究的问题（如在正文中回顾的，依然有许多关于其它话题的重要研究，这其中有些是与意外问题相关或是重叠的。全面回顾这些研究不在本文研究范畴之内，但我们能简单列出一些主题：

隐私：在使用机器学习敏感数据时如何确保隐私，例如医疗机器？

公平：如何确保ML系统不会歧视？

安全：一个恶意的对手能对ML系统做些什么？

滥用：如何阻止误用ML系统攻击或是伤害人类？

透明度：如何理解复杂的ML系统在做些什么？

政策：如何预测和应对ML所带来的经济和社会影响？

我们相信这些话题急待解决且发展前途光明，并且与本文中所探讨的话题有大量交集。

9.结论

本文分析了智能代理学习中的意外和加强学习，在智能代理中意外被定义为未被注意的有害行为，而这些行为应该来自于较差的AI设计系统。我们提出了五种可能的，与意外风险有关的研究问题，并且对于每一个问题我们都有给出可行的方法，并且这些方法经得起具体实验的检验。

基于现实可行的机器学习系统，如控制工业处理，健康有关的系统和其它重任务的技术，小规模的意外看起来都会是很具体的问题，因为小的意外会打击人们对人工智能的信心。大的意外风险很难估测，但我们相信随着智能越来越强大，开发一个有原则并且有远见的方法会是值得。尽管当今的安全问题是通过特别的或是个案对个案的方法解决的，但我们相信日后的趋势是端对端，最后完全智能化，使用一个统一的方法阻止系统造成未意识到的麻烦。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

陈圳

编辑

扫描关注作者微信

发私信

当月热门文章