您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
AI开发 正文
发私信给思颖
发送

0

微软研究院发布开放数据项目,公开 15 类内部研究数据集

本文作者:思颖 2018-06-26 14:50
导语:涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等多个方面的数据集。
活动
企业:微软
操作:发布数据项目
事项:公开数据集

雷锋网 AI 研习社按,日前,微软研究院发布微软研究院开放数据项目(Microsoft Research Open Data),这一开放数据项目包括 15 个研究领域的数据集,涵盖计算机科学、社会科学、物理学、天文学、生物学、经济学等多个方面。据悉,这些数据集是微软多年来在已发表的研究中所使用的数据管理和研究成果。(微软凭借这一开放数据项目的发布,在雷锋网(公众号:雷锋网)学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中增加 4 分。)

微软表示,他们的目标是为研究人员与合作者提供一个简单方便的平台,用于共享数据集、研究技术和工具。开放这一项目的目的是简化数据集的访问流程,促进使用云资源的研究人员之间的协作,实现研究资源的可复用性。

微软研究院发布开放数据项目,公开 15 类内部研究数据集

图 微软研究院开放数据项目中的数据集

随着全球的数据量呈指数级增长,人们普遍认为在 2025 年数据量将超过 150ZB,大家已经意识到应该优先处理数据。微软坚信,这一开放数据集将为学术界和产业界带来巨大的应用价值。

用户现在可以直接访问 microsoftopendata.com 浏览和下载可用的数据集,或者利用自动工作流直接将数据集通过 Azure 订阅复制到基于 Azure 的 Data Science 虚拟机上,如下图。

微软研究院发布开放数据项目,公开 15 类内部研究数据集

图:直接在 microsoftopendata.com 上将数据集复制到基于 Azure 的 Linux 虚拟机上

数据集的分类如下图所示:

微软研究院发布开放数据项目,公开 15 类内部研究数据集

其中开发的数据集包括微软机器阅读理解(MS MARCO),微软研究院社交媒体对话语料库,SigmaDolphin 等等。

大家可以访问 https://msropendata.com/ 来查询、下载各类数据。

via:微软亚洲研究院,Microsoft blog

雷锋网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介