2020最佳AI新基建年度榜
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
AI+ 正文
发私信给AI研习社
发送

0

mathor 大佬聊赛事:处理「微博立场检测」赛事,数据比模型重要

本文作者:AI研习社 2020-03-25 10:50
导语:AI研习社竞赛专区大佬专访。

坐镇大佬:

mathor:武汉某高校软件工程大四学生(数学家是我理想)

AI 研习社 ID:@mathor

(个人主页链接:https://www.yanxishe.com/center/myPage/5148812


「微博立场检测」赛事链接:https://god.yanxishe.com/44 

mathor 大佬聊赛事:处理「微博立场检测」赛事,数据比模型重要

AI 研习社:简单介绍一下你的个人背景,让我们更了解你呗。

mathor:我现在就读于武汉一所普通高校,大四,今年 6 月份毕业,然后参加了 20 年的研究生入学考试。我的本科是软件工程专业。

AI 研习社:之前参加过类似的比赛吗?

mathor:这已经是我第二次参赛。第一次参赛是在 19 年暑假,那是一场高校大数据挑战赛,赛题是广告点击预测。那一场赛题比较简单,尤其数据字段较少,不需要运用很复杂的特征工程,非常适合当时的我。

AI 研习社:比起其他 NLP 赛事,你认为“微博立场检测”有何不同之处?它是怎么影响你的答题思路的?

mathor:首先,“微博立场检测”赛事的字段较少,意味着我们不需要做复杂的特征工程,对新手较友好。

其次,数据量少,所以只需要普通的 cpu 就能跑。

最后,正因为数据量较少,所以许多大佬惯用的深度学习方法,如 bert、lstm 等,使用后效果可能不是很好。反而是对模型了解较少,但是非常擅长处理数据的同学,会有更好的成绩。

AI 研习社:所以说你在上周五的 PPT 里着重强调了“数据清洗”的作用,这一块方便细谈一下吗?

mathor:这次比赛的数据都是中文的,相比英文而言,中文数据的清洗过程更复杂。

首先你得分词,这里就会面临很多问题,比如不同分词工具的效果不一致,而且不存在分词 100% 正确的工具。

其次,分完词后,你还将面临各种乱七八糟的字符,如网址、验证码、表情和中文标点符号,这些实际上没什么意义,如果可以过滤掉这些,肯定会对结果产生很大的影响。

假设现在有一个非常干净的数据样本,随便带入一个机器学习的模型,得出的结果不一定比非常乱的样本带入深度学习模型的效果差。

AI 研习社:所以你采取了“pkuseg分词+fasttext”的方案。

mathor:采取 fasttext 的原因是它非常简单,随便调一下就能用,这样我可以把更多精力集中在数据处理上。(mathor 大佬参赛baseline:https://god.yanxishe.com/codeplan/detail/72

AI 研习社:你的 PPT 里还提到一点,就是要善用分词工具的语料库,这一块又是基于什么考量呢?

mathor:像我前面说过的,不存在 100% 分词正确的分词工具,所以应该要想尽办法提高分词的准确度。

假设分词不正确,后面的过滤可能就会出现问题——比方说很多同学会过滤掉长度等于 1 的字符,但是如果一开始分词的时候就不准确,结果过滤的时候把一些重要的信息过滤掉了,对结果肯定有影响。

而各种语料库就是为了帮助提升分词的准确性。

AI 研习社:在数据处理这块,你比较推荐哪些学习材料?

mathor:我基本上很少保存资料,都是需要用到的时候才 Google ,查不到了再来问人。

以下这个表情包我个人觉得非常经典(笑)。

mathor 大佬聊赛事:处理「微博立场检测」赛事,数据比模型重要

AI 研习社:你的 AI 基础知识也是自学的吧?有没有什么较好的网站或课程推荐?

mathor:龙曲良老师的 pytorch 课程。

AI 研习社:据了解,你还拥有自己的个人博客,可以向我们介绍一下吗?

mathor:我的个人博客网址是 https://wmathor.com/ ,里头主要更新自然语言处理、算法等技术方面的内容,少量写一些个人感悟之类的。

AI 研习社:你觉得写个人博客对你最大的影响是什么?

mathor:学习完了,要是不及时做笔记,最后会忘记的(笑)。

AI 研习社:还有哪些关于“微博立场检测”的关键信息,是我的问题没问出来,你认为有必要跟大家强调的?

mathor:现在比较流行集成模型,有时间的大佬可以尝试建立多个模型,然后做个简单的投票,或者stacking之类的,或许有奇效。毕竟那么多比赛,那么多人都在用。

这是模型方面,数据处理方面我就不多说了,已经快要接触到我的方法的核心了 (笑)。

AI 研习社:最后一个问题,你认为什么是“打比赛的正确姿势”?

mathor:不要随便提交代码,因为每天提交的次数有限;

同时不要过分相信验证集的分数,很可能不准,所以一定要有自己预判分数的方法,什么方法都行;

然后就是,不会的就及时上网查,原理不懂不要紧,最重要的是要能快速使用。


「微博立场检测」赛事链接:https://god.yanxishe.com/44

mathor 大佬聊赛事:处理「微博立场检测」赛事,数据比模型重要

雷锋网 雷锋网 雷锋网(公众号:雷锋网) 

雷锋网版权文章,未经授权禁止转载。详情见转载须知

mathor 大佬聊赛事:处理「微博立场检测」赛事,数据比模型重要

分享:
相关文章

文章点评:

表情

编辑

聚焦数据科学,连接 AI 开发者。更多精彩内容,请访问:yanxishe.com
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说