如何管教AI的行为举止？OpenAI早已开始研究，而这只是整个AI安全领域的前哨

本文作者：杨晓凡

2017-08-14 16:57

导语：防止 Skynet 出现，现在就要播下种子

雷锋网 AI 科技评论按：在比赛中刷成绩和在游戏中击败人类职业选手仅仅是 AI 研究的一部分，OpenAI 的研究人员们同样重视对 AI 安全性的研究。这篇文章是纽约时报来到 OpenAI 实验室的报道，介绍了 OpenAI 近期在 AI 安全领域的想法和一些成果，也让我们看到了 OpenAI 研究人员的风采。雷锋网 AI 科技评论编译。

自学的人工智能可能学到奇怪的行为

在旧金山的 OpenAI 人工智能实验室中，计算机们可以自我学习、学会人类的举止。不过有时候也会出问题。

如何管教AI的行为举止？OpenAI早已开始研究，而这只是整个AI安全领域的前哨 Geoffrey Irving（左）和 Dario Amodei 展示可以在简单的游戏中训练人工智能

前不久的一个下午，OpenAI 的研究员 Dario Amodei 在办公室里展示了一个自己学会玩 Coast Runners 小游戏的 AI 系统。这个游戏是一个颇有年份的电脑游戏，通过终点的时候得到的分数最高的船就是游戏的胜者。

不过 AI 系统的表现让人意外：游戏规则是吃掉屏幕上不停出现的绿色点点就会得分，而这只船对它们太感兴趣了，它根本不急着冲向终点，而是不停绕圈、跟其它的船撞在一起、蹭着墙壁滑行，还有反复着火，就是不惜一切代价去得分。

Dario Amodei 着火的小船游戏就展示出了正在迅速改变科技界的 AI 技术背后的风险。研究员们研究的是如何让机器自主学习，Google 的 DeepMind 也做的是类似的事情，他们开发出了能够击败世界顶级选手的 AlphaGo。但是随着这些机器在数小时的数据分析中自我训练，它们也可能会学会一些人类没有估计到的、不希望看到的、甚至是会造成实质性伤害的行为。

当网络服务、安全设备和机器人都开始用上 AI 技术以后，这样的担忧就无法忽视了。现在，Dario Amodei 在内的一部分 AI 研究人员已经开始联手探索新的技术理论来避免最糟糕的情况发生。

在 OpenAI，Dario Amodei 和他的同事 Paul Christiano 正在一起开发新的算法，他们希望这些算法不仅能在数小时的试错中学习，还能够在途中接受来自人类老师的普遍性指导。

现在他们已经找到了一种方法让 AI 系统知道 Coast Runners 的小船要边得分、边往终点走才行，而且人类只要在屏幕上点一点就可以。他们相信这样能够综合利用人类和机器指导的算法可以帮助确保无人系统的安全性。（这项研究的具体内容可见雷锋网 AI 科技评论之前的报道你做我评——OpenAI和DeepMind全新的强化学习方法，根据人类反馈高效学习）

如何管教AI的行为举止？OpenAI早已开始研究，而这只是整个AI安全领域的前哨

Dario Amodei 和他的同事正在开发新算法，不仅能够自己试错学习，人类也可以给与指导

不可忽视的风险

近几年来，埃隆马斯克以及其它一些权威、哲学家、科技爱好者都在反复警告机器有可能摆脱人类的控制，学到一些设计者并不希望看到的有害行为。随着时间慢慢过去，人们似乎忘掉了这些警告，毕竟如今的自动驾驶汽车在识别行车线或者识别红灯这样最基本的任务中都会表现得磕磕绊绊。

但是 Dario Amodei 这样的研究者是希望赶在危险出现之前就把它们消灭掉。从某种意义上说，这些科学家做的事情就像是父母给小孩教什么是对、什么是错。

许多 AI 界的专家都相信强化学习会是通往人工智能的主要途径之一，这种方法里机器要反复试错才能最终学会做某件特定的事情。研究人员们为机器指定好一个它要追求的回馈，它就会随机地做出行动“尝试”达成任务，同时也密切关注着哪些事情会带来更高的回馈。当 OpenAI 的研究人员训练那个 AI 玩 Coast Runners 的时候，他们给它设定的回馈目标就是获得更高的分数。

虽然这只是一个游戏，但是能从里面影射出现实世界的状况。

研究人员们相信，如果一台机器学会了玩 GTA 这样的竞速游戏，它就能开一辆真车；如果它能学会用网页浏览器和其它一些常用的软件，它就学会了理解自然语言，可能还能够跟人对话。在谷歌和UC伯克利大学，机器人们已经用上了这样的技术来学会捡起东西或者开门等简单任务。这些事情不仅是 AI 开发测试的理想环境，能够完成它们也说明了 AI 具有相当的智能，接下来可以在更真实的环境中完成任务。

正因为这样，Dario Amodei 和 Paul Christiano 更加努力地想要开发出新的、能够让人类从中给予指导的强化学习算法，才能够保证 AI 系统不会偏离它们要完成的任务——谁都不想让 AI 系统在现实中造成不好的后果。

更多研究者已经加入了这个领域

这两位 OpenAI 的研究员已经和伦敦的 DeepMind 实验室的人一起发布了一些这方面的研究成果。虽然他们以往并没有什么合作经历，但毕竟两个都是世界顶级实验室，这些算法也确实算得上是 AI 安全研究方面显著的一步。

UC伯克利的研究员 Dylan Hadfield-Menell 说：“这种做法可以验证很多前向思考的成果，类似这样的算法在未来5到10年内有很大的潜力。”

AI 安全这个领域不大，但是一直在成长。随着 OpenAI 和 DeepMind 都建立了专门致力于 AI 安全的研究小组，谷歌的本土实验室 Google Brain 也加入了进来。同时，来自UC伯克利、斯坦福等大学的研究者也在研究着类似的问题，也经常与这些大公司实验室展开合作。

如何管教AI的行为举止？OpenAI早已开始研究，而这只是整个AI安全领域的前哨

站着的是 Dario Amodei，Paul Christiano 穿着浅蓝衬衣，Geoffrey Irving 正在白板上写写画画

有时候，研究者们研究的是确保 AI 系统不会自己犯错，像 Coast Runners 里的小船那样。他们也需要避免攻击者和其它怀有恶意的人发现系统中的漏洞。比如谷歌的研究员 Ian Goodfellow 就已经在研究中发现攻击者可以欺骗 AI 系统，让它们以为自己看到了别的东西。

现代计算机视觉的基础是深度神经网络，它们是一类模式识别系统，在经过大规模数据训练以后就可以学会特定的任务。用成千上万张狗的照片训练过以后，神经网络就可以学会识别一条狗。Facebook 就是用这样的方式识别自拍中的人脸的，谷歌也是这样在照片应用中对图像做即时搜索的。

不过 Ian Goodfellow 等人已经表明了攻击者可以修改一张图像，让神经网络以为图像里面是别的东西。比如对一张大象照片里面的某些像素做改动以后，就可以让神经网络把它识别成一辆汽车。

当神经网络用在安防摄像头中的时候，这就会成为实实在在的麻烦。根据研究员们所说，在脸上画几个记号就可以让摄像头以为你是别的人。

Ian Goodfellow 也说：“即便用一百万张人类标注的图像训练出一个物体识别系统，我们仍然可以创造出人类和计算机的识别结果100%不同的新图像。这种现象还需要我们继续深入了解。”

另一个难以忽视的担心是 AI 系统可能会学到一些方法，防止人类把它们关掉。在给机器设定了目标回馈以后，随着它的尝试和思考，它可能会觉得只有保证自己一直在运行才能够一直获得这些回馈。这个常常被提及的威胁可能距离目前的状况更远一点，但是研究者们也已经开始着手做预防。

Hadfield-Menell 和其它的 UC伯克利学者最近发表了一篇论文，介绍了一种解决这个问题的数学式方法。他们表明，如果设计机器的时候专门给它设定了一个不确定的回馈函数的话，它就会想办法保持它的开关是打开的。这就给它选择接受人类监管还是逃出去带来了刺激。

安全方面多数的研究还是理论性的。不过从 AI 技术的飞速发展和在许多工业应用中越来越重要的地位看来，研究者们认为相关研究开始得越早越好。

DeepMind 的 AI 安全研究负责人 Shane Legg 给出了他的看法：“AI 发展得这么快，未来到底怎么样还很难说。这些技术可能被滥用、被攻破的方式有很多，负责任的做法就是要尝试理解这些方法，并且设计各种解决方法。”

via New York Times，雷锋网 AI 科技评论编译

你做我评——OpenAI和DeepMind全新的强化学习方法，根据人类反馈高效学习

Ian Goodfellow和Papernot半年三篇博文，对机器学习的安全隐私来了个大起底

一文详解深度神经网络中的对抗样本与学习

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

0人收藏

杨晓凡

读论文为生

日常笑点滴，学术死脑筋

发私信

当月热门文章