全球AIoT产业·智能制造峰会
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给任然
发送

0

机器学习研究结果准确性普遍堪虞,可能正在导致一场“科学危机”

本文作者:任然 2019-02-18 18:59
导语:AI也会投其所好,只给你看你想看的结果,且往往都是错误的

雷锋网(公众号:雷锋网)消息,越来越多的科学研究涉及使用机器学习软件来分析已经收集到的数据,这发生在从生物医学研究到天文学的许多学科领域,且数据集通常非常庞大而昂贵。

但休斯顿莱斯大学的Genevera Allen博士近日却表示,机器学习系统的使用增加,正在导致一场“科学危机”,并警告科学家,如果他们再不改进技术,将会浪费大量的时间和金钱。

“再现性危机”

根据Allen博士的说法,机器学习系统给出的答案很可能是不准确甚至完全错误的,因为软件识别的模式只存在于数据集中,而不存在于现实世界中。

科学中的“再现性危机”指的是当另一组科学家尝试相同的实验时,无法复现当初的研究结果,或是发现它们站不住脚,而这意味着最初的结果是错误的。一项分析认为,在世界范围内进行的生物医学研究中,有高达85%都是浪费精力的无用功。

“现在人们普遍认识到科学中的再生性危机,我冒昧地争辩说,其中很大一部分来自于在科学中使用机器学习技术。”她指出,这些研究结果通常不会被发现是不准确的,直到有另一个真正的大数据集,有人应用这些技术,才会发现两项研究的结果不重叠。

这是一场已经持续了20年的危机,之所以会发生,是因为实验设计得不够好,无法确保科学家在看不到他们想看到的结果时不会自欺欺人。

有缺陷的模式

Allen博士表示,机器学习系统和大数据集的使用加速了这场危机。这是因为机器学习算法是专门为在数据集中寻找有趣的东西而开发的,所以在搜索大量数据时,必然能发现其中的一个模式。

“问题在于,这些发现真的可信吗?真的能代表科学吗?是可复现的吗?如果我们换一个额外的数据集,我们会看到相同的科学发现或原理吗?很不幸,答案通常是否定的。”

Allen博士正与休斯顿贝勒医学院的一组生物医学研究人员合作,以提高他们研究结果的可靠性。她正在开发下一代机器学习和统计技术,这些技术不仅可以筛选大量数据进行发现,还可以报告结果的不确定性以及可能的重现性。

“收集这些庞大的数据集非常昂贵,我告诉和我一起工作的科学家们,你们发表论文可能需要更长的时间,但最终你们的成果将更能经受住时间的考验。”Allen博士表示,“这将为科学家节省资金,而且重要的是能将机器学习从这些可能的错误方向上拉回正轨,进而促进真正的科学发展。”

雷锋网版权文章,未经授权禁止转载。详情见转载须知

机器学习研究结果准确性普遍堪虞,可能正在导致一场“科学危机”

分享:

文章点评:

表情

编辑

观点离经叛道的骨灰级硬件爱好者
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说