您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给杨丽
发送

0

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

本文作者:杨丽 2020-02-02 10:19
导语:如何让不具备可解释性的神经网络模型变得更“可控”呢?

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

雷锋网讯,2014年,Google提出了Sequence-to-Sequence模型,旨在将句子文本映射到fixed-length向量,其中输入和输出的长度可能会有所不同。Seq2Seq通常应用于NLP领域的文本生成任务,例如摘要生成、语法纠错、句子合并等。尽管最新的研究突得端到端的方法在文本生成上比之前更有优势,但其本身存在的不可解释性,一方面使得该模型需要大量的训练数据才能达到可接受的性能水平,另一方面通常只能逐字生成文字,本质上是很慢的。

近日,Google研究团队开源了一款文本编辑模型LaserTagger,可推理出一系列编辑操作,以将源文本转换为目标文本。研究人员断言,LaserTagger处理文本生成一般不易出错,且更易于训练和执行。

在此之前,Google已经发布了Meena,一个具有26亿个参数的神经网络,可处理多轮对话。1月初,Google在论文中还提出了Reformer模型,可处理所有小说。

GitHub链接:https://github.com/google-research/lasertagger

LaserTagger设计和功能

对于许多文本生成任务,输入和输出之间存在高度重叠,LaserTagger正是利用了一点。例如,在检测和纠正语法错误或多个合并句子时,大多数输入文本可以保持不变,只需修改一小部分单词。然后,LaserTagger会生成一系列编辑操作,而非实际单词。 

目前支持的四种编辑操作:

  • Keep(将单词复制到输出中)

  • Delete(删除单词)

  • Keep-AddX(添加短语X到标记的单词前) 

  • Delete-AddX(删除标记的单词)

下图对LaserTagger在句子合并中的应用进行了说明。

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

图注:LaserTagger预测的编辑操作中,删除“Turing”,添加“ and he ”。请注意,输入和输出文本存在的高度重叠。

所有添加的短语均来自受限制的词汇表。该词汇表是一个优化过程的结果,该优化过程具有两个目标:(1)最小化词汇表的大小和(2)最大化训练样本的数量,其中添加到目标文本的唯一必要单词仅来自词汇表。短语词汇量受限制会使输出决策的空间变小,并防止模型添加任意词,从而减轻了“幻觉”(雷锋网注:hallucination,模型在所生成的文本中,输入信息中并不存在)的问题。

输入和输出文本的高重叠性的一个推论是,所需的修改往往是局部的并且彼此独立。这意味着编辑操作可以高精度地并行推理,与顺序执行推理的自回归seq2seq模型相比,可显著提高端到端的速度。

结果

研究人员评估了LaserTagger在四个任务中的表现,分别是:句子合并,拆分和改述,抽象总结和语法纠正。结果显示,使用大量训练样本情况下,LaserTagger与基于BERT的seq2seq基线成绩相当,并且在训练样本数量有限时明显优于基线。下面显示了WikiSplit数据集上的结果,其中的任务是将一个长句子改写为两个连贯的短句子。

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

图注:在100万个样本的完整数据集上训练模型时,LaserTagger和基于BERT的seq2seq基线成绩相当,但在10,000个或更少样本的子样本上进行训练时,LaserTagger明显优于基线模型(SARI得分越高越好)。

LaserTagger主要优点

与传统的seq2seq方法相比,LaserTagger具有以下优点:

  1. 控制:通过控制输出短语词汇(也可以手动编辑或整理),LaserTagger比seq2seq基线更不易产生“幻觉”问题。

  2. 推理速度:LaserTagger计算推理的速度比seq2seq基线快100倍,能够满足实际情况下的实时问题。

  3. 数据效率:即使仅使用几百或几千个训练样本进行训练,LaserTagger也会产生合理的输出。实验中,seq2seq基线需要成千上万个样本才能获得相同的性能。

Google团队最后写道:“ LaserTagger的优势在大规模应用时变得更加明显,例如,通过缩短响应时间并减少重复性,改进了某些服务中语音应答的格式。高推理速度使该模型可以插入现有技术堆栈中,而不会在用户端增加任何明显的延迟,而改进的数据效率可以收集多种语言的训练数据,从而使来自不同语言背景的用户受益。 ”

相关链接:https://ai.googleblog.com/2020/01/encode-tag-and-realize-controllable-and.html(雷锋网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

比基线模型快100倍,Google开源文本生成“加速器”LaserTagger

分享:
相关文章

高级主笔

关注企业软件、操作系统、云原生(PaaS)、数据中台 | 微信:leeyangamber
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说