深度学习零基础进阶第四弹！｜干货分享

本文作者：奕欣

2016-11-25 16:08

导语：本次雷锋网所推荐的论文，主要集中于自然语言处理层面，相对于此前比较枯燥的理论阶段，相信以下的内容会更能让初学者们有的放矢。

编者按：时隔一段时间，雷锋网独家奉送的深度学习零基础进阶第四弹又来了！经过前面三篇文章的研究和学习，相信大家在深度学习的方式与深度学习在不同领域的运用都有了一定的了解。而本次雷锋网所推荐的论文，主要集中于自然语言处理层面，相对于此前比较枯燥的理论阶段，相信以下的内容会更能让初学者们有的放矢。原文首发于 GitHub，作者 songrotek，文章名为《Deep-Learning-Papers-Reading-Roadmap》，雷锋网对每篇论文都增加了补充介绍，未经许可不得转载。

开放性文本的语义解析主要是通过推断相应的含义（meaning representation, MR）, 以理解在自然语言中的任意声明。但可惜的是，目前的大规模系统由于缺少直接的可监督数据，并不能实现深度学习。而在《Joint Learning of Words and Meaning Representations for Open-Text Semantic Parsing》一文中，作者 Antoine Bordes 采用了一本超过 70000 词，能映射超过 40000 个实体的字典作为文本样本，通过知识库的建立从未经处理的文本里进行语义的理解学习。在一个多任务训练模式中，实体及 MR 能够对不同来源的数据进行处理。因此，该系统能够最终将单词与所代表的含义在开放性文本中建立联系。

[1] https://www.hds.utc.fr/~bordesan/dokuwiki/lib/exe/fetch.php?id=en%3Apubli&cache=cache&media=en:bordes12aistats.pdf

《Distributed representations of words and phrases and their compositionality》一文是谷歌研究院在 2013 年的一个语言分析成果，主要介绍的是单词及短语的分布式以及它们的组成性。团队引入了一个名为「Skip-gram」的语言处理模型，它能有效地捕获大量的精确语法和语义关系。而他们在研究中提高了矢量和训练的速度及质量，并提出了一个名为「负采样」（negative sampling）的研究模式。词语之间受排列顺序及使用习惯的问题，不能轻易地联想到它们之间的关系。比如「Canada」和「Air」，可能没办法第一时间想到是「加拿大航空」（Canada Air）。在文章的最后，团队提出了一种能够在文本中查到短语并予以呈现的简单方法，这对要学习数百万个短语之间的向量关系大有益处。

[2] http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

虽然深度神经网络（DNN）在机器学习领域是一种强大的模式，但如何用神经网络掌握词序间的联系？《Sequence to sequence learning with neural networks》给了我们一个很好的参考。作者采用了多层长短期存储器（LSTM）将输入序列映射到固定维数的向量，并将另一个深度 LSTM 从向量中解码目标序列。通过英语到法语间的翻译任务测试，LSTM 的 BLEU 得分达到了 34.8，此外在翻译长句子上毫无难度。而作为比较，基于短语的得分在相同的数据集上达到了 33.3。当研究者采用 LSTM 系统重新进行测试后，BLEU 得分达到了 36.5，已经接近最佳得分。而研究者们对所有源的语句进行颠倒顺序，以改进 LSTM 的性能，这样一来，短语的依附性会减少，让优化过程更加容易。

[3] http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf

这篇标题有点卖萌的《Ask Me Anything: Dynamic Memory Networks for Natural Language Processing》主要介绍了自然语言处理的动态内存网络（DMN）。自然语言处理的大多数任务都可以转换为 QA 问题，DMN 作为一个神经网络架构，能够处理输入的问题，形成情景记忆并产生相关的答案。问题会触发一个迭代过程，允许模型引用输入的内容及以前迭代的结果。随后，这些结果会在层次循环序列模型中进行推理以产生答案。DMN 支持端对端训练，并且能获取多种类型的任务及数据集里的最优结果：问题解答（Facebook 的 bAbl 数据集）、情绪分析文本分类（斯坦福情感树库）及基于演讲标注的序列建模（WSJ-PTB）。这三个基于不同任务的训练主要依赖训练的单词矢量，并按照「输入-问题-回答」三部曲的流程来进行。

[4] https://arxiv.org/abs/1506.07285

发布于 2015 年的《Character-Aware Neural Language Models》主要从字符角度出发进行研究。目前所做的预测依然是基于词语层面的。模型主要建立了一个卷积神经网络及基于词性的高速网络，其输出基于 LSTM 及递归神经网络模型。此研究基于英国的 Penn 数据库而完成，该模型采用的参数比起现有技术水平少了 60%，不过模型采用了多种语言（阿拉伯语、捷克语、法语、德语、西班牙语、俄语）。在使用较少参数的情况下，效果优于词级/语素级就 LSTM 基线。结果显示，目前基于多种语言，字符的输入已经能够满足语言建模，通过分析字符，进而判断单词所代表的含义，这一过程揭示，这一模型只需要依赖字符就能实现语义编码及正交信息。

[5]https://arxiv.org/abs/1508.06615

如果你对 bAbI 任务产生了兴趣，不妨看下《Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks》。机器学习研究的一个长期目标建立适用于推理及自然语言的方法，尤其在智能对话机制领域。为了实现这一点，团队通过问题评估其阅读理解的能力，对一组任务的有用性进行测试。主要的考察点在于：一个系统是否能通过事实匹配、简单归纳、推理等步骤回答问题。任务设计的标准主要集中于它是否能与人类进行交流。因此，团队将这些任务按技能分类，以便研究人员判断系统是否真正掌握了这一方面的技巧，并有针对性地进行优化。团队此外还拓展和改进了引入的内存网络模型，结果显示它能够解决一些问题（并不是所有的问题）。

[6] https://arxiv.org/abs/1502.05698

《Teaching Machines to Read and Comprehend》实际上要教会机器阅读自然语言文档还是有点挑战的，雷锋网此前也报道过不少相关的研究成果。机器阅读系统能够测试机器在阅读完一份文档后，对提出问题进行解答的能力。在这篇论文中，团队开发了一个神经网络，教机器学会阅读日常文档，并用最简单的语言结构回答复杂的问题。这个测试实际上有点像 CNN 及 Dailymail 里出现的那种填空式的问题。不过，到目前为止这一系统依然缺少大规模训练和测试的数据集。这篇论文有时间的话可以稍微了解一下，但并不是非常推荐。

[7]https://arxiv.org/abs/1506.03340

如果你想了解最先进的文本分类方式，那么你一定不能错过《Very Deep Convolutional Networks for Natural Language Processing》。大部分 NLP 的主要实现方式是基于循环神经网络，代表为 LSTM 与卷积神经网络。不过这些架构与深卷积神经网络相比就是小巫见大巫了。在这篇文章里，团队提出了一种新的文本处理架构，能够直接在字符级上进行操作，并且只需要使用小的卷积及池操作。研究显示，这个模型的性能在达到 29 个卷积层时能在公共文本分类任务上达到极佳改善。此外，这也是第一次将非常深的卷积网络应用于 NLP 层面。

[8] https://arxiv.org/abs/1606.01781

上一篇文章提到了一种超前的文本分类方式，但相对而言，《Bag of Tricks for Efficient Text Classification》提到的方法速度则更快。文章中探讨了一种简单有效的文本分类器 fastText，并与深度学习分类器在准确性上进行了比对和评估。结果显示，fastText 在标准多核 CPU 上，能够在 10 分钟内实现超过 10 亿词的训练，并且还能在 1 分钟内将 50 万个句子进行分类。

[9] https://arxiv.org/abs/1607.01759

以上便是在自然语言处理领域的一些必读研究论文，感兴趣的小伙伴们可以看起来了！

【招聘】雷锋网坚持在人工智能、无人驾驶、VR/AR、Fintech、未来医疗等领域第一时间提供海外科技动态与资讯。我们需要若干关注国际新闻、具有一定的科技新闻选题能力，翻译及写作能力优良的外翻编辑加入。工作地点深圳。简历投递至 guoyixin@leiphone.com。兼职及实习均可。

深度学习零基础进阶第三弹｜干货分享

干货分享 | 深度学习零基础进阶第二弹

干货分享 | 深度学习零基础进阶大法！

雷峰网原创文章，未经授权禁止转载。详情见转载须知。