国内高校与广州重点实验室合作，发布对抗式神经机器翻译

本文作者：雪莉•休斯敦

编辑：郭奕欣

2017-05-26 19:40

导语：通过英语法语和德语语音的翻译结果，证实了使用对抗式神经机器翻译的翻译质量远好于很多其他业内已知的规范方法。

由中山大学，中国科技大学，微软中国和广东信息安全技术重点实验室近日发表论文《Adversarial Neural Machine Translation-对抗式神经机器翻译》，雷锋网做了整理和编译，未经雷锋网许可不得转载。

在2014年由Bahdanau等人提出的神经机器翻译（NMT）近几年获得了学术和工业领域越来越多的关注。这种新式的翻译方法与传统的基于统计数据的翻译机制（SMT）相比，可以获得更好的翻译质量。但是，其翻译结果还远远没有达到人类对机器翻译的期待，基于NMT的研究还有很长的路要走。在研究领域，学者们使用的传统NMT通常运用最大接近预测机制（MLE），使用翻译原文段落和句子进行训练。但是，这种翻译方式并不能做到最为自然和准确的翻译效果。尽管基于这种理论方法还有很多的科学研究，但是用机理上看，这样的方式并不能从根本上使机器翻译进步和提高到无限接近人类水平。

这篇论文介绍了一种新的基于神经机器翻译的应用，结合近期行业内很火的生成对抗网络GANs，使用GANs的思路架构进行训练，从而实现的新方法，称为对抗式神经机器翻译。与目前熟知的大多数机器算法不同的是，通过这种方法的机器翻译，不是通过将机器训练的无限接近人，而是通过尽量减少人与机器之间的不同得以实现。在对抗式神经机器翻译中，训练的模型是由一种具备对抗性质的卷积神经网络（CNN）构成的。鉴别器会将翻译的结果和真实人类的翻译结果进行区分。生成器（NMT模型）会生成高质量的翻译结果来迷惑鉴别器。方法中还运用了梯度策略同时训练NMT模型和对抗网络。

论文中使用了英语法语翻译和德语英语翻译进行实验，En→Fr数据库由WMT 2014训练语料库构成， news-test 2012，news-test 2013作为开发组，news-test 2014作为测试组。该数据体量大约有12M，有6K和3K的句子对，最长的句子允许有50个字母。训练使用了30K最多使用的英语和法语单词。并将未出现的单词标志为UNK。并将未出现的单词标志为UNK。

Ge→En数据库用了IWSLT 2014评估大赛的开源数据，体量大约为153k，有7k和6.5k双语句子对，最长的句子长度也设置为50。训练使用了包括22822个和32009个最常使用的英语和德语单词的语料库。

国内高校与广州重点实验室合作，发布对抗式神经机器翻译