您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给汪思颖
发送

0

清华唐杰博士详解亿级学术图谱Open Academic Graph,如何高效精准生成6500万对匹配关系?

本文作者:汪思颖 编辑:郭奕欣 2017-08-29 09:57
导语:通过集成MAG中1.66亿学术论文和AMiner中1.55亿学术论文的元数据信息,Open Academic Graph生成了两者间近 6500 万个链接关系。

雷锋网 AI 科技评论按:近日,清华大学副教授、Arnetminer 创始人唐杰博士在微博上公开了开放学术组织(Open Academic Society)发布的亿级学术图谱——Open Academic Graph。据唐杰博士介绍,该图谱目前集成了两个最大的公开学术图谱:微软学术图谱(MAG)和AMiner学术图谱。具体来说,团队通过集成MAG中1.66亿学术论文和AMiner中1.55亿学术论文的元数据信息,生成了这两个学术图谱之间近 6500 万对链接(匹配)关系。

雷锋网 AI 科技评论第一时间采访了唐杰博士,详细了解到这个亿级学术图谱和与之相关的研究难点以及技术突破。

亿级数据,筹备半年

目前这个学术图谱中的数据集主要是论文,包括论文中的题目、作者、会议、年份、摘要等元数据。不同于国内大的学术数据库知网、万方等以中文为主,Open Academic Graph中的论文主要是英文。根据唐杰博士的介绍,如此庞大的数据集,团队前后花了半年时间筹备。

耗费如此多的时间和精力,做这个数据集目的何在?唐杰博士告诉雷锋网AI科技评论,他们想要集成全球不同学术知识图谱,并公开共享学术图谱数据和相关学术搜索与挖掘服务。具体包括如下三点:

一是集成丰富的学术知识数据。目前开放学术图谱的核心数据来自微软学术图谱和AMiner学术图谱,下一步将集成更多其他学术图谱数据,包括扩充不同类型实体(如作者、论文等)的语义数据。通过数据集成和数据挖掘算法将链接更多实体更精准和丰富的“画像”数据,包括论文的元数据、概念网络、研究领域、全文等和作者的基本信息(如:职位、单位、联系信息、国别、性别等)、研究兴趣以及论文列表等。


二是数据共享。通过共享不同的学术知识图谱以及它们的链接关系,我们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘以及大规模学术图谱连接等领域的研究。同时,欢迎更多来自学术社区的贡献来进一步增强开放学术图谱。


三是服务共享。我们希望设计更加智能的学术图谱连接系统,并提供相关的服务(如API),以方便更多人使用服务以及加入开放学术社区。

精准匹配,挑战颇多

庞大的数据量,要实现精准匹配势必会存在各种各样的问题。唐杰博士坦言,在实际的研究过程中,由于学术数据在不同图谱中的分布异构特点,同名异义和异名同义问题严重。对于出现的问题,他也举了几个实例来具体说明。

一是数据异构问题。由于数据分布在不同数据源,可能面临数据异构的问题。比如论文作者可能存在不同的格式,如Quoc Le 和Le, Quoc。又如,论文所发表的期刊或会议有全称或缩写等多种形式。

二是同名消歧问题。同一名字可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是匹配的难点。在2016 年,中国重名最多的30 个姓名中,每个姓名重名人次达到20 万以上。对于论文来说,不同论文也可能有相同的题目,如:Data, data everywhere 在数据库中可对应多篇文章。

除了前面提到的两个问题,要想实现亿级数据的集成,如何进行高效计算也是另一个重要挑战。唐杰博士提到,以AMiner为例,已经公布的论文数据就有1.55亿,而微软学术图谱的公开数据也达1.6亿,计算两个图谱匹配关系的算法复杂度一般来说是O(n2),这需要大量计算。

精进算法,不断突破

那么团队究竟如何处理这些问题?他们设计了一个折衷方法,同时考虑精度和效率。据介绍,他们的方法能将算法复杂度降低到O(nlogn)到O(n2)之间,目前每天能够完成约2千万篇论文的匹配,基本完成了合计3亿篇论文的自动匹配,并保证了高匹配精度。

该算法是在RiMOM算法的基础上进行了改进。

具体来说,我们设计了一个针对大规模论文匹配的异步搜索框架。对于AMiner中的每篇论文,我们根据题目在MAG中搜索可能匹配的论文,每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略,可以做到平均每秒搜索到20余篇论文,使得大规模的图谱链接可以达到较快的速度。

为进一步提高自动集成速度,他们还尝试了两个新的匹配算法MHash和MCNN。

MHash是利用哈希算法,将每篇论文转化为一串二值编码,计算两篇论文之间的汉明距离。由于使用了哈希,该算法速度很快,但同时精度也有所降低,大概能保持93+%的匹配准确率。MCNN是基于卷积神经网络的深度学习方法,MCNN基于单词之间的相似度构造两篇论文的相似矩阵,然后利用卷积神经网络来捕捉文本之间的相似模式。

采访过程中,唐杰博士还提到在实际的操作过程中,该方法可以缓解数据异构的问题。如:对于作者Quoc Le 和Le, Quoc,它们对应位置上的单词是不相似的,但是在相似矩阵中可以捕捉不对应位置上单词的相似度。该方法可以达到非常高的匹配准确率(98%+)。两个论文匹配算法均结合了论文的多个属性,如题目、作者等减轻同名消歧问题。

总结

唐杰博士团队与微软联合发布的Open Academic Graph,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。

在未来,他们还将研究如何集成大规模异构学术图谱中不同类型的实体(如作者、会议等),公布更多学术图谱连接数据(如作者连接数据),设计更加智能的学术图谱连接系统并提供相应的服务。

最快今年年底,我们可能就会看到更大的数据集。雷锋网 AI 科技评论也将持续关注。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

清华唐杰博士详解亿级学术图谱Open Academic Graph,如何高效精准生成6500万对匹配关系?

分享:
相关文章

编辑

关注AI学术,例如论文
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说