您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给杨鲤萍
发送

0

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

本文作者:杨鲤萍 2020-03-06 18:57
导语:联合 Twitter 数据集预测参与率,奖金 $ 30000

近日,推荐系统领域的 RecSys 2020 挑战赛赛题公布,竞赛主题为「Twitter 参与率预测及内容推荐」

而竞赛数据集正是由 Twitter 提供的约 2 亿条公众推文(说不定就你和特朗普就在同一个样本里);竞赛前三名将从高到低获得依次为:$ 15000、$ 10000、$ 5000 的高额奖金。

作为目前推荐系统领域影响力最大的赛事之一,RecSys 挑战赛是推荐系统领域的顶顶级学术会议 RecSys 的一部分。就本次 RecSys 2020 竞赛的细节,雷锋网 AI 源创评论将详情整理编译如下。

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

推荐算法界的奥运会——RecSys

RecSys 作为推荐系统领域的顶会,一直以来都非常重视利用不同算法,去解决实际的推荐问题。

而建立于顶会之上的 RecSys 挑战赛,更是不少开发者将其喻为推荐算法的「奥运会」。每一届都有各大名企团队与推荐算法佼佼者参与其中,进行激烈的角逐。

竞赛自举办以来,主题涵盖了:音乐喜好推荐、情景感知推荐、视频网站推荐等各类生活化场景,并且在解决这些问题上取得了不错的成果。

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

推荐系统案例

目前,随着深度学习研究的进一步深入,推荐系统也得到了更快的发展,不仅成为了学界的研究热点,同时也获得了业界的广泛关注。

竞赛介绍及任务

正如文章开头提到,本届 RecSys 2020 挑战赛主题选择了「Twitter 参与率预测及内容推荐」,因此比赛内容也集中在动态环境中的推文参与度预测的现实世界任务上。

Twitter 上发布了各种各样世界上正在发生的事情。无论是时下热点和突发新闻,还是娱乐八卦到体育、政治和日常琐事,在 Twitter 上,大量文字、图片等数据实现了全球共享。

用户在平台上发布并参与被称为「推文」的内容,并以「赞」、「回复」、「转发」和「带评论转发」的形式展现出用户的观点。

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里


Propagate 和 Filter 提出的四种数据类型及其在传播中的应用

而随着 top-K 推荐方法的发展与成熟,RecSys 2020 挑战赛目标是根据异构输入数据,预测一组推文针对目标用户的不同类型的参与(如赞,回复,转发和带有评论的转发)的概率。

旨在以新颖的评估算法,进行大规模地 Twitter 参与率预测,并通过最大的真实世界数据集来预测用户参与度,鼓励新推荐方法的开发,从而推动推荐系统的最新技术发展。

同时,作为这项挑战数据集提供方兼赞助商的 Twitter,也给出了令人心动的奖金,大赛前三名将获得以下奖励: 

  • 冠军:$ 15000

  • 季军:$ 10000

  • 亚军:$ 5000

竞赛数据集

在该挑战赛中,RecSys 计划将发布 3 个数据集,包括:训练集、测试集、验证集。其中,训练集是通过在 1 周内对积极互动数据进行二次抽样而获得,测试集和验证集则是从下周数据开始采样。

该数据集包括 Twitter 将发布的大约 2 亿条公众推文的大型公共数据集,这些数据均通过在约 2 周内进行二次抽样获得。

其中包含了:参与功能,用户功能和推特功能,例如:公众互动(如「赞」、「回复」、「转发」和「带评论转发」),以及从公众追踪图中取样的 1 亿个随机否定的伪否定词。

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

值得注意的是,这一挑战的一个难点是有关数据保护和隐私的最新法规。涉及到用户的隐私,挑战数据集将是合规的:如果用户从Twitter删除Tweet或他们的数据,则将立即更新数据集。

数据集将每天进行更新,以确保符合 GDPR 规定;同时,相应的指标也会在排行榜上进行更新。因此,对于数据集中的每个更改,提交的评估都将重新进行,并且排行榜将使用重新计算的指标进行更新。

更多数据集包含可公开获得的数据功能信息,在 Twitter Developer 文档(https://developer.twitter.com/ )中进行了更详细的描述。

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

评审标准与时间节点

参赛者提交结果后,将在平台上最新 Tweet 类型数据生成的保留测试集上进行评估,评估指标将包括曲线下的精确召回面积(PR-AUC)和交叉熵损失。

目前,RecSys 2020 挑战赛官网最新时间安排如下:

  • 2020 年 3 月 2 日——数据集发布和 RecSys 挑战开始(训练集和验证集已发布)

  • 2020 年 6 月 1 日——测试数据集发布

  • 2020 年 6 月 7 日——RecSys 挑战赛结束

  • 2020 年 6 月 15 日——最终排行榜公布和获奖者 RecSys Challenge Workshop 的论文提交

  • 2020 年 9 月 22 日至 26 日——举办研讨会(作为巴西里约热内卢举行的 ACM RecSys 的一部分)

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

大赛官网:
http://www.recsyschallenge.com/2020/#participation

 数据集下载地址:
http://recsys-twitter.com/data/show-downloads  

GitHub 地址:

https://github.com/twitter-recsys-challenge-2020  

雷锋网(公众号:雷锋网) AI 源创评论     雷锋网      雷锋网

雷锋网原创文章,未经授权禁止转载。详情见转载须知

顶级算法赛 RecSys 2020 启动,你和特朗普可能在同一个样本里

分享:

文章点评:

表情
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说