访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

本文作者：任然

2018-11-26 18:13

导语：雷锋网与中科曙光智能计算部经理许涛进行了深入的交流对话，获悉中科曙光在产品和市场上的一些思考。

雷锋网消息，2018年11月20日，NVIDIA在苏州召开了GTC China 2018大会。与会者对这场技术大会的期待不仅在于NVIDIA本身，对于其产品和技术在国内的具体应用也倍加关注。

在本次大会上，国内高性能计算领军企业中科曙光推出了全新的XMachine系列AI服务器，基于Intel Skylake CPU，最多可通过NVLink支持8块NVIDIA GPU、10卡训练GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合设计，可根据CPU和GPU的发展各自独立升级，降低用户更新换代成本。

发布会后，雷锋网与中科曙光智能计算技术总监许涛进行了深入的交流对话，获悉中科曙光在产品和市场上的一些思考。

重新认识高性能AI服务器

对于大多数人来说，高性能计算（HPC）产品和传统的服务器似乎没什么区别，都象征着“专业级”、“企业级”等高大上的定位。不过在谈话中我们了解到，以高算力为需求的产品，已经从传统服务器中独立出来了，其设计方式和传统服务器有很大不同。

访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

许涛向雷锋网介绍，二者首要的区别在于传统服务器的功耗密度相对较低，而AI服务器等高性能计算产品的功耗非常高，目前发售的AI服务器额定功率已达到3200瓦，下一代HGX产品给出的参考功率更是高达单台10千瓦，远远超过传统机架式和刀片式服务器。而功耗高也带来了发热量大的新挑战，这是AI服务器和传统的服务器最大的区别。

设计AI服务器时，供电和散热是需要重点考虑的问题，相应的对兼容性和稳定性的要求也都不太一样。在GPU加速卡刚出现的时候，单卡功耗不超过250瓦，而现在已经达到300瓦，按照目前的趋势，加速卡功耗还会随着时间推移变得更高，当单块加速卡功耗达到350瓦以上的时候，传统的服务器结构就很难满足了。

“在这么高的压力下，单个机柜里能摆放的服务器数量是非常有限的。”许涛给我们算了笔账，“3200瓦的AI服务器，一般的电信机房单柜只能放2台，即便是20千瓦容量的高端水冷机房也只能放6台。综合考虑实际部署情况之后，我们发现4U是非常合理的AI服务器尺寸。XMachine的GPU仓高度为3U，不仅散热空间大，也为未来的维护预留了很大的空间。”

而对于个人工作站，中科曙光在最新的W560-G30产品上也采用了改进设计的3段式散热方案：

GPU区域：RTX6000显卡功耗达300瓦，拥有专门的散热空间，并且使用IPMI功能精准读取显卡状态状况并管理显卡功耗和风扇散热，控制相应的风扇风量，在保证显卡散热的同时将办公环境下的噪音压缩至最低，最高可支持2块显卡全速运转。
CPU区域：支持2颗共56个物理核心的至强铂金CPU，每颗CPU的功耗达205瓦；2颗CPU风道互相隔离，每颗CPU均有独立进风，保证CPU在高功耗下稳定工作，并可支撑进一步的超频空间。
电源区域：使用可7*24小时稳定提供1250瓦供电能力的铂金电源，并设计有电源的独立风道；时在放置于数据中心使用时，可支持冗余电源和基于BMC的远程管理功能，变身成为高性能GPU服务器。

访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

灵活应对百花齐放的推理端市场

随着异构计算越来越流行，现在HPC Top 500里排名靠前的超高算力服务器基本上都用到了GPU加速卡或者其他加速部件。据雷锋网了解，目前NVIDIA已经基本垄断了AI计算的训练端市场，但在与用户应用贴合特别紧密的推理端，由于需要进行具体的应用部署，GPU作为一种通用计算单元的优势就会被削弱。

NVIDIA虽然面向推理端市场发布了T4计算卡，但是像Intel、赛灵思和寒武纪等公司，依然在积极开拓这一领域。根据介绍，XMachine系列AI服务器在设计上可以兼容多种加速器产品，这些芯片在市场中是互补的，中科曙光未来会针对不同应用场合推出使用不同加速芯片的服务器，就看终端用户的诉求是什么。

“在文字处理或信息导流等业务中，传统CPU的运算效率也很好；如果是需要捕捉黄金窗口期的商业化公司，那么NVIDIA T4这样的GPU加速产品可以让公司迅速上线项目。” 许涛为我们详细分析着几种不同的情况，“而对那些拥有特殊业务需求的定制化客户来说，他们需要经常迅速改换业务逻辑，这种情况下显然FPGA更适合。”

随后，许涛特别提到了寒武纪科技今年5月3日发布的首款云端智能芯片MLU100及对应的云端AI计算卡，并纠正了我们对国产AI芯片的一些认识误区。他表示，寒武纪MLU100芯片与NVIDIA P4/T4加速卡的设计理念大相径庭，二者在计算能力上并不能直接进行对比。

“寒武纪MLU100芯片所使用的AI框架和技术非常专一，可以快速实现CNN、RNN等各种各样的卷积过程，达到非常好效果，在特定的推理市场上给用户提供更好的加速。如果是与应用贴合非常紧密的研究型用户，寒武纪MLU100芯片可以在其特定环境下将算力发挥到极致。”

不担心被模仿

中科曙光此次发布的XMachine系列AI服务器，采用了CPU底板和GPU底板解耦的设计，未来可通过模块化组合的方式进行独立升级，以降低用户更新换代成本，最大限度保护投资。

为此我们不免担心，这种弹性灵活的创新设计，会不会慢慢被其他服务器厂商效仿？

对于这一问题，许涛很是自信：如果其他公司真的模仿我们的机器，说明我们引领了这个市场。

访中科曙光智能计算技术总监许涛：重新认识面向未来的AI服务器和云计算中心

据悉，之前国内的GPU服务器来源基本都是OEM或ODM，但随着时间的推移，技术输入越来越困难，这些产品很难适应国内形形色色的定制化需求。

许涛坦言，中科曙光并不是国内第一家推出GPU服务器的厂商，但是他们希望可以做到最好，或者说可以在某些擅长的行业里面做到最好。而想要让产品始终保持先进的架构或结构，就要不停进行技术演进，一款产品成熟的过程就是一个反复迭代的过程。

“从我们自己的角度来看，现在的产品不应该是完美的，应该有新的版本不停迭代，让它变得越来越适用于用户应用场景，或者越来越适用于新技术的发展。”许涛解释道，“模仿是没有办法避免的，但在其他公司模仿的过程中，我们自身也在不停演进，所以我们并不担心产品被模仿。”

同时他还指出，随着技术的不断更新，很多技术要素想要模仿也是很困难的。中科曙光除与NVIDIA建立合作外，还与寒武纪等其他国产芯片合作，合作过程中需要投入大量技术资源和测试资源，这些投入都不是简单的模仿机器硬件可以实现的。

“从这个层面来讲，我们希望他们能模仿。如果其他公司真的模仿我们的机器，说明我们引领了这个市场。”

面向未来的云计算中心和先进计算平台

现在云计算已经不再像过去那样只停留在各种文章里面，随着认可度的逐渐提升，不管是专用云平台还是通用云平台都在慢慢落地，各种企业都越来越愿意为这份资源去花钱。

中科曙光的AI战略规划很大，一方面中科曙光有AI服务器自己的底层硬件产品，另一方面也在硬件产品的基础上设计配套软件，并拥有自己的云计算中心和先进计算平台。云计算中心既可以给用户提供计算资源，也希望能够通过虚拟化的技术，帮助那些有独特见解的用户实现他们的创意。

雷锋网了解到，中科曙光在云计算领域的起步其实非常早，在成都、无锡、南京、包头等地都有为政府提供服务的城市云计算中心。但许涛清楚地知道，云计算中心也需要随着时代前进而不停演进，随着普及程度的提高，如果只停留在传统的发展模式下，未来的竞争力会越来越弱。

“从我们的角度来看，更希望能在某些特殊领域或行业里供专业的云服务。”许涛解释道，“中科曙光的体量是无法和BAT这种通用云平台抗衡的，他们的构架非常庞大，可以把很多业务都牵进去，但是对我们来讲，想要保持业务的先进性，只能在一些特殊领域或行业里做到最尖端。”

“为用户提供特异化的服务，使我们的优势很难被通用云平台模仿，这才是正确的发展方向，也是我们眼中未来的云计算市场。”许涛如是说。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

任然

编辑

观点离经叛道的骨灰级硬件爱好者

发私信

当月热门文章