您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈圳
发送

0

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

本文作者:陈圳 2016-07-19 19:14
导语:IJCAI论文导读本文为最终章,主要介绍了自然语言的理解和连续词语的表达。

微软研究院在IJCAI2016的Tutorial上讲述了自己将深度学习、深度神经网络应用于不同场景的情况,之前第二部分提到了深度学习在统计机器翻译和会话中的应用,第三部分是选中自然语言处理任务的连续表达。第四部分是自然语言的理解和连续语言词语的表达。

联合编辑:李尊,章敏,陈圳

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

自然语言理解,重点在于 建立能与使用自然语言的人类进行交互的智能系统。其研究挑战:1)文本意义表达 2)支持有用推理任务。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

连续词语表达,重点在于知识基础嵌入和基于知识基础的问题回答&机器理解。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

连续词语表达包括:

l  多种创建词语矢量的流行办法

l  编码条件共存信息

l  测量语义相似井


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

语义嵌入将原始文本转换成连续语义空间

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

嵌入有效的原因在于:

l  词汇语义词相似度

l  文本简单的语义表达

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

对神经网络模型进行预先训练

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

词语嵌入模型样本、评估、相关工作

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

潜在语义分析包括:SVD概括原始数据、同义词典中不存在明确关系、术语矢量投射K维潜在空间、词语相似度等

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

RNN-LM词语嵌入

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

SENNA词语嵌入

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

CBOW/Skip-gram词语嵌入

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

DSSM:学习词语含义

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

GloVe:词语表达的全局矢量

语义相关度能够从词语同现次数个概念来观察


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

评估:语义词相似度

l  数据:人类判断词组

l  词语相似度排名与人类判断之间的关系

l  独立语义嵌入模型通常不能实现最好的结果


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

评估:关系相似度

判断两组词是否有同样的关系以及为什么它会有效?


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

意外发现:从递归神经网络语义模型提取的词语嵌入,关系相似度由余弦值得来。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

实验结果

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

在其他数据集上的相似结果

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

词汇类比评估。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

讨论。1.方向相似性无法处理语义关系;2.矢量计算=相似性计算3.通过计算找到最接近的x。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

一些相关工作——模拟不同的词汇关系如:判断是同义词还是近义词。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

相关工作——词汇嵌入模型如:其它的词汇嵌入模型;Word2Vec的分析和方向相似性;理论论证与统一;评估NLP的矢量空间表示。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

神经语言的理解。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

知识库:通过储存上百万实体的性能和它们之间的关系捕获世界的知识。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

现在的KB在NLP&IR中的一些应用——回答问题,信息提取,网络搜索。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

知识库推理-知识库永远不会完整,模拟多关系数据,知识库嵌入效率和精准度都更高。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

知识库嵌入:KB中每一个实体都由一个Rd矢量表示,通过fr(Ve1,Ve2)预测(e1,r,e2)是否是正确的。最在KB嵌入方面的工作:张量分解,神经网络。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

张量分解-知识库表示(1/2):收集-主-谓-宾-(e1,r,e2)

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

张量分解-知识库表示(2/2):0输入意味着不正确或者不知道


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

张量分解对象

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

测量关系的程度

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

键入张量分解:关系的主要知识有键入信息,约束和损耗中唯一合法的实体。利用键入信息的好处有三点:模型训练时间短,大KB可高度扩展,预测精度更高。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

键入张量分解对象重建误差


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

加入张量分解对象重建误差

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

训练过程-交替最小二乘法

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

实验—KB完成自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

实体检索

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

相关性进行检索及其平均精度

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

知识库的嵌入模式


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

相关操作的评价函数及其参数

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

基于神经网络的KB嵌入式方法的经验比较:参数少表现更佳;双线性操作符十分关键;建模时,乘法要优于加法;pre-trained 短语和嵌入式向量对于表现十分关键。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

霍恩子句的最小化规则


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

相关路径中进行学习


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

自然语言理解

连续的词表达和词汇语义学

知识库嵌入

KB为基础的问题回答和机器理解

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

语义分析


极具挑战性的语言任务可能会导致重大失误

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

极具挑战性的语言任务可能会导致重大失误

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

极具挑战性的语言任务可能会导致重大失误


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

问题配对有三种方法:通过释义进行语义分析;使用源于单词校对结果的单词表创造短语配对特征;把问题用向量表示。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

镶嵌子图模式


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

使用DSSM确定推理链

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

深度学习的回答和问题数据集。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

把原始版本和匿名版本进行了比较。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

神经网络模式中Attentive Reader的具体运行结构图。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

神经网络结构中Impatient Reader的运行结构图。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

各模式运行结果精准度的比较,其中以NN为基础的模式表现最好。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

对所有的问题进行了全面的检查,发现问题在于需用智能的方法创建大规模的受监督数据以及弄清楚理解程度问题。此外好的消息是实体能平等地进行工作且Attentive Reader模式表现最好。坏消息是任务难度较大,需达到最优化(25%的问题还是无法回答)。


自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

连续空间表现对于一些神经网络语义理解任务还是很有帮助的;例如,连续词语表达和词汇任务,知识库镶嵌,以KB为基础的问题回答和机器理解。

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

在NN和连续表达方面实现了较大进步,例如,文本处理和知识推理。

对于未来展望提出了以下几个方面:

建立一个通用的智能空间

文本,知识和推理等等

从部件模式到端至端解决方法。

总结:

自然语言理解,重点在于 建立能与使用自然语言的人类进行交互的智能系统。此外需要连续词语表达和词汇语义学。

连续词语表达,重点在于知识基础嵌入和基于知识基础的问题回答&机器理解。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

自然语言的理解和连续表达 | 微软IJCAI 2016演讲PPT

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说