智能驾驶峰会
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
人工智能 正文
发私信给杨晓凡
发送

0

SQuAD 2.0来了!现在这里有了机器「无法回答的问题」

本文作者:杨晓凡 2018-06-13 16:01
导语:自然语言处理现在也有了对抗性问题

雷锋网(公众号:雷锋网) AI 科技评论按:斯坦福大学 NLP 组(Stanford NLP Group)昨晚发出公告,文本理解挑战赛 & 数据集 SQuAD 升级为 SQuAD 2.0,在原来基础上增加对抗性问题的同时,也新增了一项任务「判断一个问题能否根据提供的阅读文本作答」。新版本 SQuAD 2.0 由斯坦福大学计算机系 Pranav Rajpurkar, Robin Jia, Percy Liang 三人在获得 ACL 2018 最佳论文奖的论文《Know What You Don't Know: Unanswerable Questions for SQuAD》(https://arxiv.org/abs/1806.03822)中提出。SQuAD 页面的主题色也从玫红色更换为了蓝紫色。

SQuAD 2.0来了!现在这里有了机器「无法回答的问题」

基于 SQuAD(Stanford Question Answering Dataset)的文本理解挑战赛,是行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及,现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答。

在原来的 SQuAD(SQuAD 1.1)的十万个问题 - 答案对的基础上,SQuAD 2.0 中新增了超过五万个新增的、由人类众包者对抗性地设计的无法回答的问题。执行 SQuAD 2.0 阅读理解任务的模型不仅要能够在问题可回答时给出答案,还要判断哪些问题是阅读文本中没有材料支持的,并拒绝回答这些问题。

SQuAD 2.0来了!现在这里有了机器「无法回答的问题」

图示为两个无法回答的问题。红色标出的答案看似有理,但其实是错误的。

Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰写了论文《Know What You Don't Know: Unanswerable Questions for SQuAD》对这一新任务以及 SQuAD 2.0 做了介绍。论文中为 SQuAD 2.0 设立了新的人类表现基准线(EM 86.831,F1 89.452)的同时,也通过对比展现出了 SQuAD 2.0 的难度:一个强有力的基于神经网络的系统可以在 SQuAD 1.1 上得到 86% 的 F1 分数,但在 SQuAD 2.0 上只能得到 66%。这篇论文也获得了 ACL 2018 最佳论文奖。其它四篇最佳论文介绍请看这里

详细信息欢迎访问 SQuAD 网站(Stanford-qa.com)以及阅读论文(https://arxiv.org/abs/1806.03822)。雷锋网 AI 科技评论报道。

相关文章:

一窥 ACL 2018 最佳论文

雷锋网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介