您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给雪莉•休斯敦
发送

0

大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 | ICLR 2017

本文作者:雪莉•休斯敦 编辑:郭奕欣 2017-04-25 10:23 专题:ICLR 2017
导语:大量的证据证明,大批量的方法会倾向于将模型和函数归一化,从而导致尖锐收敛,并最终生成了比较差的泛化效果。

雷锋网AI科技评论按:ICLR 2017 于4月24-26日在法国土伦举行,雷锋网AI科技评论的编辑们也于法国带来一线报道。在这个深度学习会议举办之际,雷锋网也围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 | ICLR 2017

由西北大学(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特尔的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期发表的论文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,当选 ICLR 2017的oral paper。文章描述了在传统神经网络训练时,大的 batch size(如,超过512)会导致网络模型泛化能力下降的问题,并通过实验证明其原因是泛化误差和尖锐收敛,并提出了一些解决方案。

很多深度学习过程中都在算法上应用了随机梯度下降的方法或随机梯度下降的衍生方法。但是这种方法一般适用于小批量(样本数量在32-512之间)的计算。观察数据显示,当大批量计算时(样品数量超过512),如果用泛化能力作为标准的话,模型的计算质量就会下降。Intel与西北大学研究的这篇文章,就这个问题进行了讨论,并提出了大量的证据证明大批量的方法会倾向于将模型和函数归一化,从而导致尖锐收敛,并最终生成了比较差的泛化效果。

论文分析了在小批量情况下结果不同的原因,并提出这种不同来自于在梯度预测时内部噪声的差异。如下图片,在这个案例中,随机的选择一组小批量(SB)和大批量(LB)的最小值,可以发现,LB极小值比SB极小值更加尖锐。因此,泛化能力则更低一些。同时,论文还就减小泛化间隙的问题提出了在大批量计算中适用的几种策略,开放性的预留了未来的讨论点,包括在大批量计算中可进行的尖锐收敛和可能的优化方案。

大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 | ICLR 2017

论文链接:https://openreview.net/pdf?id=H1oyRlYgg

原文链接:https://openreview.net/forum?id=H1oyRlYgg&noteId=H1oyRlYgg 

ICLR评论:

ICLR委员会最终决定:

对这篇论文的评论普遍非常正面,这说明了这篇论文映射了一个在工程应用领域普遍存在的问题。我相信整个研究环境会通过阅读这篇论文得到一些建设性的解决问题的新思路。

决定:接受(Oral)

大批量训练的分析

评分:8分,Top 50%,明确接受

评论:这是一篇很有趣的文章,就为什么大批量训练效果变差的原因进行了分析,这对整个深度学习的社区有着重要的意义。

很好的文章

评论:我想这篇文章明确了一点,大批量计算时,泛化效果就会变差。并通过对比分析大批量和小批量的失真函数进行了很好的阐释。

文章不够新颖但是实验数据非常有价值

评分:10分,Top 5%,这是一篇研讨会文章

很好的文章:

评分:6分,刚好及格

评价:我觉得这篇文章还不错,很有趣也很有用,但是如果增加更多的论证,比如增加一些高斯噪声梯度的分析。

雷峰网版权文章,未经授权禁止转载。详情见转载须知

大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 | ICLR 2017

分享:
相关文章
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说