阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

本文作者：包永刚

2020-09-19 14:42

导语：含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买。

2019年杭州云栖大会上，阿里巴巴集团首席技术官兼阿里云智能总裁张建锋简短的介绍了阿里首款AI芯片含光800，这款当时最强AI推理芯片的一发布就引发了巨大关注，可谓高调亮相。

今年的阿里线上云栖有一个芯片设计发展现状与未来的论坛，阿里云异构计算产品研发总监龙欣分享了含光800推出近一年后的最新进展。

他表示：“含光800 NPU实例已经正式对外服务，不需要白名单就可以在阿里云实例上购买，实例名称是ebman1.24xlarge，最多支持8核NPU和96核vCPU，384G内存，网络带宽最高达到30Gbit/s，主要面向数据中心的CNN类型模型推理加速，业务包括城市大脑，图像视频审核，拍立淘等。”

更引人关注的是含光800在具体应用中的表现。

含光800未对外发售，性能通过阿里云输出

正如雷锋网在去年的文章中所说，科技巨头自研芯片是因为有大量数据，在内部的AI需求推动下，希望通过自研芯片来提升效率和性价比。周五的线上分享中，龙欣也表示，阿里巴巴内部有广阔的AI应用，包括电商应用、视觉应用、语音交互、自然语言理解、机器翻译等。

一个典型的例子就是拍立淘，两千多万的日活用户在使用这项功能的时候，要透过一张图片，在4亿多的商品中搜索，在30多亿张图片多库中进行匹配，根据用户的使用习惯进行个性化推荐，这就需要很强的AI能力。

阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

阿里云异构计算产品研发总监龙欣

因此，阿里希望通过自研的含光800从硬件到软件的方案提升性价比。做个简单的回顾，含光800在硬件方面有三个方面的特色，包括：

深度优化CNN及视觉类算法

加速卷积和矩阵乘，支持反卷积、孔洞卷积、3D卷积、插值、ROI等
针对 ResNet-50、SSD/DSSD、 Faster-RCNN、Mask-RCNN、DeepLab等模型优化

高能效、低延时

高密度的计算与存储，极大减少I/O需求
软硬协同支持权重的稀疏压缩，计算的量化压缩

指令集支持可编程模型扩展

除INT8/INT16量化加速外，也覆盖FP16/BFP16的向量计算除直接加速各种ReLu、 Sigmoid、Tanh等，也可支持未来新型激活函数

也就是说，含光800的硬件特别针对CNN算法模型进行设计，但也保持一定的灵活性，再匹配全栈的软件支持在特定应用和算法中实现高性价比。去年张建锋发布含光800时说，“在业界标准的ResNet-50测试中，含光800推理性能达到78563 IPS，比目前业界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名的3.3倍。”

阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

不过龙欣在昨天的分享中并没有提及含光800的峰值性能，而是强调其可用性。他表示，“含光800作为并没有在公开市场发售的芯片，通过阿里云输出。”

为了让含光800能够开箱即用，阿里云让购买实例的用户可以自动安装NPU驱动和SDK，系统方面支持公共镜像CentOS 7.6/7.7和Ubuntu 16.04，还预装主流深度学习框架，提供TensorFlow、MXNet示范教程。

阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

龙欣强调，含光800的应用主要是在数据中心和大型端上，以CNN类模型推理加速为主，可扩展到其他DNN模型中。目前在具体的应用中相比GPU有4-11倍性能提升。

阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

含光800在三大AI应用中4-11倍的性能提升

去年含光800发布时给出的数据是，在城市大脑中实时处理杭州主城区交通视频，需要40颗传统GPU，延时为300ms，使用含光800仅需4颗，延时降至150ms。拍立淘商品库每天新增10亿商品图片，使用传统GPU算力识别需要1小时，使用含光800后可缩减至5分钟。

昨天的分享中，龙欣给出的最新数据是，在行人检测应用中，4核含光800克支持100路视频，比主流GPU 25路的推理性能提升4倍。在车辆检测中，同样是4核含光800，可以支持85路视频，比主流GPU支持10路推理性能提升了8.5倍。

阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

在直播、短视频、商品信息流等内容识别应用中的ResNet50 V2模型中，含光800（4核）的帧率可以达到20000 FPS，比主流推理GPU的1800 FPS性能提升11倍，性能加速比11倍。在Inception V4模型中，含光800（4核）的处理帧率达到5000 FPS，比主流推理GPU的460FPS性能加速比高10.8倍。

阿里含光800 AI处理器高调亮相后，三大场景落地性能比GPU高4-11倍

还有，在直播、点播、短视频等视频质量增强中。4核含光800的直播视频增强性能为500 FPS，对比主流推理GPU的50 FPS，性能加速比是10倍。在点播HDR中，4核含光800多性能是66 FPS。龙欣说：“点播HDR需要用到性能比较强的训练GPU，比如英伟达A100，但即便如此其性能智能达到10 FPS，我们可以实现6.6倍的性能加速比。”

至于在语音交互、自然语言理解等语言方面的应用实例优势，龙欣并未在今年的云栖上给出数据。

雷锋网小结

相对于含光800在去年云栖备受关注的亮相，今年云栖对含光800的关注度并不高，龙欣的介绍也只有15分钟，还包含了许多去年已经公开的消息。含光800的实际应用优势，应该是当下许多人关注的，但此次的分享给出的场景还没有十分丰富，介绍的也比较简单。这可能是由于目前紧张的贸易关系让阿里对于芯片相关的话题更加谨慎。

但更应该看到的是，即便有强大的团队能够快速设计出一款芯片，但要大规模落地仍然需要很长的时间，这个过程软件发挥着更加直接的作用，获得客户的认可和采用也并非易事。阿里的芯片路，依旧还只是开始阶段。

那么，阿里的下一代AI芯片会在什么时候推出呢？雷锋网

云栖大会 | 阿里宣布全球最强AI推理芯片含光800问世，张勇、张建锋大谈数字经济

阿里首款AI芯片含光800重磅发布，全球最强AI推理芯片如何练成？

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

包永刚

编辑

发私信

当月热门文章