英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC

本文作者：程弢

2016-12-17 23:00

专题：2016中国人工智能产业大会

导语：宋继强定下了一个小目标，到2020年，在英特尔软硬件方案的集成下，深度学习模型的训练时间可以缩短100倍。

雷锋网按：今日，由中国人工智能学会主办的 2016 中国人工智能产业大会暨第六届吴文俊人工智能科学技术奖颁奖盛典在深圳举行。英特尔中国研究院院长宋继强站在芯片供应商的角度为大家分享了他对人工智能的观点。以下整理自演讲内容，雷锋网做了不改变原意的修改。

数据驱动人工智能的发展

英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC

据第三方机构预测，到2020年会有500亿的智能设备连入互联网，这些智能设备会产生大量的数据，到2020年，仅一位互联网用户每日就能产生1.5GB的流量，而一家智慧工厂每天产生的数据更是高达1000000GB，当然，你完全不用为此感到惊慌，这些数据正是人工智能算法的基础。

这些数据促使了我们有更好的数据去训练人工智能的算法，同时这些数据也可以让我们通过训练好的人工智能算法，产生更大的增值价值，这也是为什么人工智能吸引了这么多的科研人员和企业，大家一起把资源贡献出来。

宋继强如是说。

数据是基础，但拥有数据之后并不意味着你可以就此一劳永逸。在应用层，除了从各种渠道获取的数据之外，处理和分析数据的能力也格外重要，通俗点说，就是有了数据你要知道怎么用。宋继强认为，这其中的关键是端到端的集成。

智能终端的种类很多，它们采集来的数据种类很多，通常不是传统的结构化数据，而是非结构化的数据，怎么样能够很好的利用云端和终端协同计算能力和它们之间无缝并且高速的传输能力、存储能力，构建端到端的解决方案，构成一个良性循环。也就是采集了数据，做了处理，送到云端以后，在云端继续分析它，去提取出中间有用的价值，并且能够有一些是可以增值，让终端更智能的再下发到终端，这样一个反复的循环，是一个最优的途径，这是我们深刻相信的未来的场景。

人工智能依然处于早期阶段

人工智能从60年前被提出，到现在已经发展到了一个新的高度，人工智能已经逐渐融入到了人们的生活当中，不过在宋继强看来，现在的人工智能并不成熟。“20年后再来看，历史的发展长河里面，现在人工智能仍然处在一个早期阶段。”

宋继强给出了三个评价技术是否已经达到了成熟阶段的标准：

第一，看它的应用是否已经普及到各行各业，还是你只在一小块产业里去提供价值，所以一个是应用的广泛度。
第二，是否已经有标准，不管是国家标准还是行业标准，是否已经有标准开始在制定和落地。
第三，是否已经有专用的硬件开始在市面上使用，而且第三点也是比较重要的，大家知道做硬件，第一个花钱，第二个周期长，产业没起来之前，硬件厂商是不会铺进去的。

英特尔联合创始人Robert Noyce曾表示，“一直以来，我们通过计算机建模的方式来探究大脑如何工作。或许我们应该反其道而行之，为了探索计算机的未来发展方向，我们应该向大脑寻求答案。”宋继强在大会上也表示，怎么利用我们在脑科学上得到的一些认知和新奇的想法，去促进计算机科学或者计算架构的发展，为这个领域提供更好的计算能力，这是业界需要考虑的。

英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC

通常我们在做硬件的时候，必须要走这样的过程。

宋继强以深度学习举了个例子：如果训练出一个深度学习模型，直接变成一个硬件是不太可能的，而且也是低效的，高效的办法是去分析这个模型，而且必须找到懂这个模型的人、懂为什么产生这种模型，然后把这个模型通过硬件的描述给描述出来，接下来是抽象出硬件中的数据流。这里会涉及到很多问题，数据是怎么流的？中间的流水线上有哪些重要处理模块？它们各自的时间、带宽要求是怎么样？有哪些计算的原语？在这样的基础上，做硬件芯片就有很好的认识，我们能知道哪些放在硬件里面固化，哪些是去灵活使用，有了这样的认知以后，就可以产生出一个针对这种工作，这种工作负载优化的硬件。

如果这个产业真的发展到了一个普及，那就需要专业模型，而不是在通用的芯片上做模拟。

英特尔做了什么？

虽然宋继强在大会现场表示英特尔不是人工智能领域的专家，但英特尔近一年来在这一领域做出的投入并不少。他说，英特尔正在做的就是终端到云端的解决方案，例如中间的通讯链路、存储等。

在云端方面，雷锋网曾报道，今年11月英特尔推出了代号为Lake Crest的芯片，这是一款专门为深度学习定制的处理器。宋继强在现场介绍了这款芯片的特点：第一，它里面的运算设计是为了深度学习量身定制，同时它的计算密度也非常高；第二，它突破了多节点之间数据访问的瓶颈；第三，支持高速的内存，这个高速内存是使用HBM2的内存，直接封装在一个芯片的。

这样的设计意味着什么？

在做深度学习训练的时候，即使你的模型、神经网络的每一个节点里面既有计算也有数据，而且数据有的还是浮点的，希望是每个计算节点有自己的内存接口，这个要求还不是那么容易满足，现在我们可以通过这个硬件技术支持到这一点，你有了这个支持，意味着我首先设计的模型，我在做很多算法训练的时候，我的尺寸大小不受太大的限制。因为很多人在初始设计的时候不考虑功耗，不考虑代价成本，去做出来，但是这时候是需要允许你去做这么大模型的平台的，同时IO增加，你也可以知道是多少增加。

英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC

除此之外，在硬件方面，至强、至强融核的技术以及Arria FPGA也都是英特尔在人工智能硬件上不可或缺的产品线，这些人工智能的硬件和方案都属于英特尔Nervana平台的产品。

英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC

反观在算法的研究上，英特尔更多的是与学术界合作，合作的方向也是多元化的：如何加快训练的速度，以及更好的利用少一些的数据和少一些的监督，来达到训练的特性；怎么把大模型稀疏化和修剪，因为现在模型和参数非常多，但实际有用的却寥寥无几，这对存储和计算会造成巨大的浪费，所以怎么做好大量模型的稀疏化，以提升效率；第三点是怎么支持更大规模的计算，例如在云端可以同时做运算，在每个节点用更高阶的方法做处理。

毋庸置疑，这些技术可以大幅增加模型的并行化计算能力，而未来英特尔也将推出更先进的Knights Crest。宋继强还透露了英特尔的一个小目标，到2020年，在英特尔软硬件方案的集成下，深度学习模型的训练时间可以缩短100倍。

英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC

在数据爆发且对计算性能要求苛刻的时代，云端固然重要，但对实时性要求高的应用而言，终端的处理能力也不容忽视。今年9月，英特尔收购了视觉处理芯片商Movidius，这是英特尔在人工智能终端上布局的代表作。在宋继强看来，终端嵌入AI是未来的一大趋势，它有更高的能效、更低的宽带需求、更低的延迟，而且对存储的消耗更少，容错连续性也更好。

英特尔宋继强：2020年，要让深度学习模型训练时间缩短100倍｜2016 CAIIC