上海科技大学屠可伟团队：小谈无监督依存句法解析

本文作者：奕欣

2017-09-19 09:50

导语：无监督依存句法的解析，都有怎样的奥秘？

雷锋网AI科技评论按：本文作者蒋勇为上海科技大学博士生，师从屠可伟博士。本文为蒋勇接受雷锋网AI科技评论独家约稿撰写的工作介绍，未经许可不得转载。

自然语言总有丰富的内部结构信息，而这些信息一般都是通过解析树（parse tree）来进行表示。一般而言，我们把从一个句子到句法树的这一过程称为句法解析（parsing）。

句法解析有很多种形式，最为常用的是基于短语的句法解析（constituency parsing）和依存句法解析（dependency parsing）。句法解析作为自然语言处理（NLP）的基础任务之一，可以帮助很多其它的任务，包括机器翻译（machine translation），句子分类（sentence classification）和语义角色标注（semantic role labeling）等。

可是，句法解析的标注数据通常很少而且解析树需要专业的语言学家来进行标注。因此，如何通过未标注数据来学习一个句法解析器就很重要。我们组这两年在无监督依存句法解析做了一些研究，分别在自然语言处理国际顶级会议EMNLP 2016和EMNLP 2017上有四篇相关工作。

无监督依存句法解析的研究历史

在2004年之前，无监督句法分析有一些研究工作，但是效果都不好（甚至超不过从左连到右（right-branching）和从右连向左（left-branching）这俩baseline）。

第一个取得突破性进展的是来自Stanford的NLP组。当时Dan Klein还在 Stanford跟随Chris Manning读博士，主要的研究方向就是无监督句法分析，其2004年在ACL发表的工作提出的Dependency Model with Valence (DMV)生成式模型首次超过了branching的baseline。Dan Klein天才式的直觉使得其在无监督句法解析上获得突破性进展，并在毕业后担任UC Berkeley的助理教授，领导Berkeley NLP Group。

DMV 模型提出后，有很多改进的工作。来自Johns Hopkins的Noah Smith当时正在跟Jason Eisner读博士，他对DMV的目标函数和学习方式做了一些改进，把英文句法解析的效果提高了近20个百分点。2006年他以杰出的工作在博士毕业后任职CMU的助理教授（现在在UW）。

Shay Cohen是Noah Smith在CMU指导的第一届博士生之一，他把Bayesian方法引入DMV模型的训练中，发表了一系列工作，毕业后在Michael Collins做了一段时间Post Doc然后加入University of Edinburgh任助理教授。

自Dan Klein毕业后，Stanford的Daniel Jurafsky组的Valentin I Spitkovsky继续从事这一方向的研究，提出了baby step learning，viterbi EM training等方法来训练DMV模型，因其提出的方法简单有效，后续有很多基于viterbi EM training的工作。

无监督句法解析任务设定

下图是传统句法解析的步骤，左图是原始句子，中图是词性标注后的结果，右图是解析出的句法树：

上海科技大学屠可伟团队：小谈无监督依存句法解析

因为无监督句法解析这个任务比较困难，我们一般用标注后的词性序列（POS Tag sequence）作为训练数据，而不是原始的句子。

生成式模型的训练

（一篇发表在EMNLP 2016上，一篇发表在EMNLP 2017上）

DMV是一个句子级别的生成模型，建模句子x和句法树y的联合概率分布P(x, y)。从根节点开始递归地生成句子中的词。下面是一个词性序列生成过程的例子：

上海科技大学屠可伟团队：小谈无监督依存句法解析

这个生成过程有10个采样步骤，每一步生成一个词或者做一个是否继续生成的决策。这里采样的概率在原始的DMV模型里是用一些表来建模，我们在EMNLP 2016提出使用神经网络来计算这些概率，同时，把离散的词，方向等通过embedding来表示。如下图所示，输入是词性，valence和方向，输出是规则的概率集合，我们把模型称为Neural DMV (NDMV)。

上海科技大学屠可伟团队：小谈无监督依存句法解析

在我们了解的范围内，这是第一次把神经网络用在无监督句法解析上。学习的过程也很简单：

上海科技大学屠可伟团队：小谈无监督依存句法解析

学习是期望最大化（EM）算法的变种，E步使用动态规划得到每个grammar rule的使用次数，M步分为两部分：

第一部分是通过grammar rule的使用次数训练神经网络的参数；
第二部分是通过神经网络预测grammar rule的概率，以此循环直至收敛。

下图是我们在PTB上的实验效果，可以发现我们在相同设定下取得了目前最好的效果：

上海科技大学屠可伟团队：小谈无监督依存句法解析

我们知道，大模型和大数据是深度学习成功的关键，因此我们也想在无监督句法解析上大模型和大数据的关系。我们对NDMV进行了拓展，引出词的信息，并在多种大小数据集上进行了实验，有了以下三个实验发现，发表在EMNLP 2017上：

下图是在传统DMV模型上的实验，我们发现在相同数据下随着degree of lexicalization的增加（模型变大），效果变差。但是随着训练数据的增加，效果有所提升。

上海科技大学屠可伟团队：小谈无监督依存句法解析

当我们用神经网络来smooth这个概率分布后，明显发现在少量数据下随着degree of lexicalization的增加效果下降的不那么严重了。

上海科技大学屠可伟团队：小谈无监督依存句法解析

当我们使用更好的模型初始化方法（’expert’ initialization）时，我们发现随着数据集的增大和degree of lexicalization的提高，效果有了明显提升。

上海科技大学屠可伟团队：小谈无监督依存句法解析

下图是我们在WSJ10数据上的表现：可以看到，我们在WSJ10上取得目前最好的效果，在完整的WSJ数据上也表现的不错。

上海科技大学屠可伟团队：小谈无监督依存句法解析

判别式模型的训练

（发表在EMNLP 2017上）

几乎所有之前的工作都是在生成式模型（如DMV）上做的，生成式模型有优点也有相应缺点，比如不能很好地建模上下文的信息。我们在这篇文章中提出了一种新的判别式模型来做无监督句法解析：条件随机场自编码器（CRF Autoencoder）。

下图是我们提出模型的一个例子。CRF Autoencoder包括两部分：encoder和decoder。Encoder是一个基于CRF的Discriminative模型，Decoder是一个基于词的bigram生成模型。模型的输入是词序列（用x来表示），隐藏层是输入词对应的父亲词序列（用y来表示），输出是重建的词序列（用上海科技大学屠可伟团队：小谈无监督依存句法解析来表示）。