MIT开发新型神经网络训练技术，打开AI决策黑箱

本文作者：夏睿

2016-10-31 15:57

导语：科学家能训练神经网络做预判和分类，然而却不知道其决策背后的原理。叫兽们说，打开这个黑箱很重要。

神经网络是一种模仿生物神经网络（如大脑）的结构和功能的数学模型或计算模型，它能在训练数据的过程中寻找模式以对数据进行预测和分类。近年来，神经网络的研究极大促进了人工智能的发展，科学家用它开发出不少高性能的系统应用——比如用神经网络识别数字图像中的某些对象或推断文本主题等。

虽然神经网络在受到训练之后能够很好地将数据分门别类，但是，即使是它的设计者也无从得知它们是如何思考的。它就像一个黑匣子。若是进行图像识别，也许还能通过反向运行神经网络找出它识别和决策的内在因素，正如雷锋网文章《深度 | Nature：我们能打开人工智能的“黑箱”吗？》中曾提到的，Tyka 和 Google 的研究员为了深入研究黑箱问题而开发的 Deep Dream 算法，从一个图形开始，好比说一朵花或者一个沙滩，通过修改它来提高特定的顶级神经元的反应。相比之下，文本处理系统的决策过程就较为晦涩难懂了。

在由计算机语言学协会（the Association for Computational Linguistics）举办的会议中，研究人员们将会讨论自然语言处理中的一些经验。来自 MIT 计算机科学及人工智能实验室( CSAIL )的研究院会展示一种训练神经网络的新方法。论文中表示这种新方法不仅能做预测和分类，更重要的是能给出其决策背后的原因。

“在实际应用中，有时人们会特别想知道一个模型到底为什么能做出这样那样的预测，” MIT 电气工程和计算机科学研究生，同时也是该论文的第一作者，Tao Lei 说道，“医生不相信机器学习，主要也是因为它做出的决策无依据可寻。 ”

Regina Barzilay 是 Delta 电子电气工程与计算机科学教授，同时也是 Lei 的论文指导顾问，他说道，“预测错误所造成的成本损失是极高的，不仅在医疗领域，在所有领域都是如此。因此你得说清楚根据机器学习的预测做出进一步行动，背后的原因是什么。”

“而且，这项工作涉及范围很广，” MIT 电气工程和计算机科学教授，该论文的第三作者 Tommi Jaakkola 表示道，“你可能不仅想弄清楚一个模型是如何做出正确预测的，而且还想对它应做出的加某些影响预测类型施。一个完全不懂机器学习的外行该如何与一个受过算法训练的复杂模型进行对话？如果模型能告诉你做出某项预测背后的原因是什么，人们也许就能以一种新的方式和模型进行互动。”

| 虚拟大脑

文章开头已提到过，神经网络是模仿大脑结构而制成。和人类大脑中的神经元一样，它们包含大量的处理节点，节点之间彼此连接，形成一个密集的网络，但其认知能力却相当初级。

在深度学习过程中，训练数据被送到输入节点中，网络的输入节点会对其进行修改并输送给其他节点，以此类推。储存在神经网络输出节点中的信息会和试图要学习的分类条目进行匹配，这些类别可能是物体形象，或是文章主题。

网络在接受训练时，各个节点在传递信息时一直在对其进行修改，使得最后输出最佳结果。但整个过程结束时，编程网络的计算机科学家往往也不知道这些节点到底是怎么设置的，或者，很难把低级信息转成让人通俗易懂的系统决策过程。

在该论文中， Lei, Barzilay 和 Jaakkola 专门强调了用文本数据进行训练的神经网络。为了解释神经网络的决策过程，CSAIL 研究院把神经网络分成两个模块，第一模块从训练数据中提取文本段，并且根据其长度和相干性来对分段进行评分：分段越短，并且从连续单词串中抓取的分段越多，其分数越高。

接着，第一模块把抓取的数据传送给第二模块，由第二模块来执行预测和分类任务。两个模块同时训练，既要使第一模块的分数提高，又要增加预测和分类的准确性。

研究员们测试系统所用的其中一个数据集是某网站用户对不同啤酒的回复评论。数据集包括评论的原始文本和对应评级，从芳香度、味觉和外观三个方面来评价，每一个都采用五星评级制。

而自然语言处理员对这些数据感兴趣还有一个原因，这些数据同时被人们进行手动注释，表明了不同回复所对应的不同等级是什么。比如，一个回复可能有八到九个句子，注释就会标出和啤酒有关的部分，比如“大约半英寸厚的棕褐色泡沫”、“明显爱尔兰啤酒的味道”或者“缺乏碳酸化”等等。

| 验证

该数据集能很好地测试 CSAIL 研究人员的系统。比如，如果第一模块提取了三个短语，而第二模块把它们对应到相关等级中，就相当于该系统的判断基础与人类注释的判断基础相同。

试验中，系统判断在芳香度和外观和人类判断相似度分别达到 96% 和 95%，对于味道的相似度则略差，有85%。

论文中，研究人员还报道了利用自由问答所获得的数据测试该系统得到的结果，以判断是否一个给出的问题先前已被回答过。

还有些成果他们没有发表，这包括将该系统应用于数千份乳腺活检的病理报告。在该应用过程中，它学会了提取文本以为病理学家提供诊断基础。甚至还能用它来分析乳房的 X 光照片，其中第一个模块提取的是图像而不是文本。

“对于深度学习，尤其是用深度学习进行自然语言处理，人们往往会夸大其词，”美国东北大学计算机与信息科学副教授 Byron Wallace 说道，“这些模型有一个很大的缺点，它们对于人类就像是黑匣子。模型不仅要能做出准确预测，还要能告诉你背后的原因。后者很重要。”

“在会上，我们发现有人和我们做类似的研究，” Wallace 补充说道，“我不知道 Regina 也在做这个，而且我觉得她的方法更好。我们的方法是，比如，有人告诉我们一个电影评论给的评价很高，我们就假设他们会在句子中做标记，并且给出理由。我们通过这种方式训练深度学习模型，来提取这些原因。但是他们无需假设，也就是无需人类注释神经网络就能给出做决策的原因。这个方法非常好。”

via：scienceblog