您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给奕欣
发送

0

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

本文作者:奕欣 2017-08-22 03:52
导语:作为开发学术社区 Open Academic Society 的新成果,Open Academic Graph数据集可以进行多种数据集成研究。

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

雷锋网 AI 科技评论消息,清华大学副教授、Arnetminer 创始人唐杰博士在微博上更新了清华和微软在 KDD 上公布的最新成果——Open Academic Graph。

「我们和微软在 KDD 上发布了一个非常大的学术数据,包含有微软 1.6 亿论文和 AMiner 里面抽取出来 1.55 亿论文,同时还给出了这两个数据之间的链接关系(可以用于做数据集成研究),欢迎大家下载,这也是清华和微软等单位联合成立的开发学术社区 Open Academic Society 。」

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

据雷锋网 AI 科技评论了解,该数据集仅供科研用,包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表的 6463 万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面,即链接关系、MAG 论文集及 AMiner 论文集。

官网介绍:https://www.openacademic.ai/news/

此外,在 aminer 的官网上也同步了 3 个 AMiner 论文集和 9 个 MAG 论文集的打包下载渠道:

https://aminer.org/open-academic-graph

在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:

{
  "mid": "xxxx",
  "aid": "yyyy"
}

其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。

对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:

示例如下:

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

在使用的时候,研究者可以通过以下两步进行操作:

  • 1. 采用 Microsoft Graph Search API 查询每个 AMiner 的论文标题,并且筛选出对应的链接论文。

  • 2. 如果两篇论文满足以下条件,则会被链接起来:

    1)标题相似;2)作者数目相同;3)有类似的作者名字及 4)相同的出版年份。

在测试过程中,研究者以 24012(TODO)链接论文对在数据集上进行测试,能够正确匹配的论文对有 23859 份,准确度达到 99.36%。

在 Open Academic Society 官网上,研究者又提供了一份准确率的最新数据:他们将 4100 个研究对进行准确性测试,发现有 4029 个成功匹配,准确率达到了 98.27%。

该数据集能够在 cloud API 上免费获得。如唐杰博士所言,这个数据集将成为 Open Academic Society 学术社区的重要组成部分。Open Academic Society 旨在建立一个共享、开源且不断扩展的知识图表体系,并构建以教育为核心的实体关系。以微软研究院旗下的 Microsoft Academic 和清华大学的 AMinergraph 领衔,知识图表的不断发展也得益于社区成员的持续贡献。

雷锋网 AI 科技评论了解到,Open Academic Society 目前的成员包括 22 位老师/研究机构,也有不少华人,包括亚利桑那州立大学刘欢教授、澳大利亚国立大学 Lexing Xie博士、中科院程学旗博士、清华大学唐杰博士、UCLA 的 Yizhou Sun 博士、伊利诺伊大学厄巴纳-香槟分校 的 Chengxiang Zhai 等老师。

为了形成更大的计算机社区,Open Academic Society 将组织 workshops、挑战赛及数据分享活动。截至目前已经在 KDD 2017、WWW 2017、WSDM 2017 等会议上开展 workshops 及分享活动,并在 KDD CUP 2016、DataScienceGame 2016 和 Open Academic Data Competition 2017 上举办挑战赛,详细清单可查看:https://www.openacademic.ai/events/

雷峰网原创文章,未经授权禁止转载。详情见转载须知

微软清华公布Open Academic Graph数据集推动数据集成研究,匹配准确率超过98%

分享:
相关文章
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说