您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
人工智能 正文
发私信给雷锋字幕组
发送

0

如何成为一名数据科学家?Yann LeCun 的建议也许能给你答案

本文作者:雷锋字幕组 2018-03-09 16:53
导语:想当数据科学家?本文给出16条超级实用的建议!

本文为雷锋字幕组编译的技术博客,原标题16 Useful Advice for Aspiring Data Scientists,作者为James Le。

翻译 | 杨丽  noodleslee  Ray Eldath    整理 |  凡江

最近,我在读Sebastian Gutierrez’s “Data Scientists at Work”这本书,他采访16个不同行业的16位数据科学家了解他们如何从理论思考问题和如何解决实际问题,数据是怎样发挥作用,并且是如此成功。

如何成为一名数据科学家?Yann LeCun 的建议也许能给你答案

16位受访者在如何理解和从大量公共和私人企业类型的公司提取数据价值都处在前列位置,公司类型横跨刚刚起步的初创公司,到主要的研究机构和人道主义非盈利组织,包含大量行业:广告,电子商务,电子邮件营销,企业云计算,时尚业,工业互联网,互联网电视和娱乐,音乐,非营利组织,神经生物学,报纸和媒体,专业的社交网络,零售业,智能销售和风险投资。

尤其是,Sebastia提出了开放式的问题,以便每位受访者的个性和自发的思考过程能够清楚和准确的分享。书中涉及的从业者分享数据科学对他们的意义,及他们怎么理解它的,他们的建议关于怎样加入这个领域,和他们在领域内获得数据科学家必须深刻理解才能成功的经验的智慧。

在这一篇文章,我想去分享这些数据科学家如下问题的最佳答案:

你对开始学习数据科学的人有什么建议?

如何成为一名数据科学家?Yann LeCun 的建议也许能给你答案

1 —Chirs Wiggins,纽约时报首席数据科学家,哥伦比亚应用数学专业副教授

“创造力和有心。你必须真正喜欢一些事你才原意长时间的思考它。当然,某种程度地质疑。因此这就是我喜欢博士生的一个原因-五年时间足够培养探索能力,然后你能意识到你用某些方法做某件事情的是有问题的。反复经历’冰火两重天‘的感觉,犯一系列的错误并且修复它们是很棒的事情。我想博士生经历的这个过程对于培养对看似正确的事情仍然抱有怀疑是非常有帮助的,特别是研究领域。我认为这是有帮助的,你可能快速地且轻易地走上错误的路径,仅仅是因为第一个这条路上的相遇者看起来是言之凿凿的。


尽管这是一个令人生厌的答案,事实是你必须具备技术深度。数据科学不仅仅包括一个领域,因此目前还没有认证。机器学习方面,获得维基百科水平理解很容易。为了真正做到这一点,你需要了解针对现在的工作,什么才是合适的工具,而且你需要深刻理解每种工具的局限性。获得上述的经验是没用捷径的。你肯定会犯很多错误。你可能会强行把分类问题塞进聚类问题,或者是把聚类问题转换假设检验问题。


一旦自己尝试一些方法,对自己的方法无比自信,但最后你意识到自己完全不对,经历过很多次上述的过程-你发现这需要经验的积累,但不幸的是并没有捷径。你仅需要不断地实践,不断犯错,这是我喜欢在这个领域有若干年工作经验人的另一个原因。某些领域里要成为一名专家需要很长时间。犯错误会持续很多年的时间。几个世纪以来都是这样。著名物理学家Niels Bohr(尼尔斯.玻尔)有句名言是这样说的,他断定成为领域内专家的方式就是犯过这个领域的每一个可能的错误。”

2 —Caitlin Smallwood,Netfilx的科学和算法部门的副总裁

“我想说做任何事情之前,硬着头皮了解数据的基础素质,尽管这不迷人也不有趣。换句话说,要努力理解是怎样捕捉数据,准确搞懂数据是怎样定义,并且搞懂什么时候会造成数据缺失。如果数据缺失,这是不是意谓有些东西发生变化?数据仅仅是在这种特定情况下缺失吗?这些细小的,微妙数据陷阱真的会影响你。他们真的会。


你可以用现存的最复杂算法,但它是古老的,垃圾的东西。你不能对原始数据视而不见,不管你进入到建模的步骤有多兴奋。你需要对细节一丝不苟,在模型研发之前,你要检查基础数据的每一个细节。


随着时间的推移,我所学到的另一件事情在一个系统环境中,混合算法总是比单一算法的表现要好,因为不同技术探索科研数据模式不同方面,尤其针对是复杂的大数据集。因尽管你可以单一的特殊的算法,通过迭代达到更好的效果,我几乎总是注意到:混合算法组合往往比单一算法的表现更好。”

3 —Yann LeCun,Facebook人工智能研究总监,纽约大学数据科学/计算机科学/神经科学教授

“我经常被问到这个问题,往往我给相同的建议。我的建议是:如果你是本科生,学习一门尽可能多修数学和物理课程的专业。不幸的是,并且必须是有用的课程。我接下来要说的听起来是自相矛盾的,但是攻读工程学或物理学专业可能比数学、计算机科学或者是经济学专业更合适。当然,你需要学习编程,因此你需要学习大量的计算机科学课程去学习编程机制。随后,完成数据科学的毕业项目。学习本科阶段的机器学习,人工智能或者是计算机视觉课相关技术,因为你需要初步探索这些技术。接下来,尽可能学习接触到的数学和物理课程。尤其是会持续应用的数学课程:优化,因为你是为将来遇到的挑战做着准备。


数据科学或AI领域有大量不同类型的工作,做什么样的准备取决于你想到达什么样的高度。人们应该思考什么是他们真正想做的,然后再学习相关课程。目前热门话题是深度学习,意谓着要用神经网络学习和了解的经典问题,学习优化,线性代数和相似的课程。这会帮你学习每天都会遇到的基础的数据知识和基础概念。”

4 —Erin,Shellman,Zymergen的数据科学主管,Nordstrom数据实验室和 AWS S3的前数据科学家

“对于一直坚持要去学习的人,我必须说科學(Science)、技术(Technology)、工程(Engineering)及数学(Mathematics)领域是不假思索就能想到的主意,特别是技术(Technology)、工程(Engineering)及数学(Mathematics)学科。学习上述课程将会给你提供检验和了解世界的工具。那就是我怎样看待数学,统计学和机器学习。对于数学本身,我不是特别感兴趣,我感兴趣的是如何应用数学来描绘事物。毕竟有现成的工具包,如果你对数学和统计不是很热衷,学习这两个学科并且思考如何在你热衷的事情应用它们也是非常值得的。


对于像我一样立志转型的人,我会说它会很难。意识到改变行业是很困难的和你需要非常努力。改变是很难的并不仅限于数据科学领域---这就是生活。和数据科学领域没有任何联系是更加艰难的,但是你可以通过与乐于助人的人士见面或喝咖啡建立连接。我生活中首要准则就是‘跟随’。如果你和具备你关注的素质的人谈话,那就是在不断进步。


数据科学家的帖子是很吓人的,大多数的帖子读起来像是数据科学的词汇表。事实是技术改变非常快,以至于没有人具备一切并且把他们写到帖子中的经验。当你阅读的时候,它让人喘不过气来,并且你也许能感觉到:这不是我要找的。我没有任何技能并且我没有什么可贡献的。我将鼓励你们反对这种思维方式,只要你一直改变并且学习新的东西,你就是很不错的。


最重要的是,公司需要的是可以严格定义问题和设计解决方案的人。他们也需要善于学习的人。我认为这是核心技能。”

如何成为一名数据科学家?Yann LeCun 的建议也许能给你答案

5 — Daniel Tunkelang,Twiggle首席搜索传播者,领英的前搜索质量负责人

“针对来自数学和物理背景的同学,我则建议他们在学习软件技能方面投入-特别是Hadoop 和R,它们是目前最广泛使用的工具。软件工程背景的同学应该参与机器学习的相关课程,参与真实数据的工程项目,这些都有大量的免费资源。正如很多前人所说,成为数据科学家的最好方式就是从事数据科学的相关工作。数据就在那里,且科学是不难以学习的,特别是数学,科学或工程背景的同学。


阅读“The Unreasonable Effectiveness of Data”,一篇来自来自谷歌研究人员 : Alon Halevy, Peter Norvig和 Fernando Pereir 的经典论文。论文总结到:大数据比算法更有效。全文是值得阅读的,文章提供最近使用网络整合规模的数据从而提高语音识别和机器翻译的成功的调查。然后是优秀的测度方法,听听Monica Rogati 提到较高质量的数据大数据有效。理解和内在化这两个观点,你就会在成为数据科学家的路上更加顺畅。”

6 — John Foreman,产品管理副总裁,MailChimp前首席数据科学家

“我发现找到和雇佣到合适的伙伴是困难的。这是一件特别难做的事情,因为当我们谈论大学系统时,不论是在校大学生还是毕业的大学生,你仅专注在一件事情-你的专业。但是数据科学家有点像文艺复兴从事人员,因为数据科学是内在的,多学科交叉的。


 这就导致:数据科学家比计算机编程人员懂得更多的统计,且比统计学家善于编程的角色这样的大笑话。这个笑话说明什么?它说明数据科学家是两种知识都知道一点的人。但我要强调的是,他要比这两个事情知道的更多。他们同样知道怎样进行沟通。他们同样需要知道不仅仅是基础统计知识,他们需要了解概率论,离散数学,微积分等。可视化手段也不会起反作用。他们同样需要了解怎样摆弄数据,使用数据库,甚至是一点OR。他们需要很多方面的知识。所以找到这样的人变得很难,因为他们需要接触过很多学科,且他们能够机智地表达他们的经验。这对任何申请人都是很高的要求。


雇人需要花费很长时间,这也是为什么我认为人们为什么会一直说现在聪明绝顶的天才数据科学家还未出世。我认为某种程度上来说这是真的。我认为一些现存的程序会开始发挥作用。但是尽管如此,这些程序的出现,但对Wimbledon来说:在数据科学领域如何应用多学科的经验表达和沟通是特别的一棵。我希望立志成为一位数据科学家的路上,程序员更注意工作中沟通和合作的能力。”

7 — Roger Ehrenberg, IA风投合伙人

“我认为充斥最多机会的领域同样伴随最多的挑战。在PII 和隐私方面,健康医疗数据显而易见存在最大的问题。不仅如此,还有僵硬的官僚体制,固化的基础设施和数据仓库,让需要很多数据集来解决苦难多问题变得困难。它将会发生的,我认为大量的,我们在这里谈到的科学技术将会直接作用于提高我们的健康管理,价格更加亲民,分配更加合理。我将之视为一代人的机会。

早些时候另一个巨大的领域是风险管理-不论是金融,交易或保险。当你谈到把这些新数据纳入到风险评估的时候,如果把新数据集纳入到风险评估时,这是一个很大的问题-特别是当把新技术应用于像保险,健康管理等存在隐私问题和官僚体制的数据受限的领域。同时,这些古老的僵化的公司刚刚开始开放,和刚刚开办如何在社区进行交互,来应用新技术。这是另一个让我难以置信的兴奋领域。


 第三个让我热衷的领域是重塑手工业使之变得更加高效。一直存才让手工制造业回返回陆的趋势。一个强大的手工业部门是通向重新创造美国活跃的中产阶级的一道桥。我认为科技可以帮助加速这个惠益的趋势。”

8 — Claudia Perlach,Dstillery首席科学家

“我认为本质上,学习数据科学好比学习滑雪。你必须实践。你可以仅仅听很多视频,观察其发生。在白天结束时,你必须拿上你糟糕的滑板冲下山头。你会在路上横冲直撞很多次,这没关系。这是学习的必经之路。实际上,我更偏好询问面试者他们不顺利的经历,而不是他们成功的工作经验,因为这告诉我他们在过程中学习到什么。


不论什么时候人们过来问我:“我应该做些什么?” 我回答,“嗯,当然,可以参加机器学习技术的线上课程。” 毫无疑问那是有帮助的。显而易见你需要会编程,至少是一点点。你不必成为一位Java编程人员,但不论怎样需要