雷锋网消息,2018年11月20日,NVIDIA在苏州召开了GTC China 2018大会。与会者对这场技术大会的期待不仅在于NVIDIA本身,对于其产品和技术在国内的具体应用也倍加关注。
在本次大会上,国内高性能计算领军企业中科曙光推出了全新的XMachine系列AI服务器,基于Intel Skylake CPU,最多可通过NVLink支持8块NVIDIA GPU、10卡训练GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合设计,可根据CPU和GPU的发展各自独立升级,降低用户更新换代成本。
发布会后,雷锋网与中科曙光智能计算技术总监许涛进行了深入的交流对话,获悉中科曙光在产品和市场上的一些思考。
重新认识高性能AI服务器
对于大多数人来说,高性能计算(HPC)产品和传统的服务器似乎没什么区别,都象征着“专业级”、“企业级”等高大上的定位。不过在谈话中我们了解到,以高算力为需求的产品,已经从传统服务器中独立出来了,其设计方式和传统服务器有很大不同。
许涛向雷锋网介绍,二者首要的区别在于传统服务器的功耗密度相对较低,而AI服务器等高性能计算产品的功耗非常高,目前发售的AI服务器额定功率已达到3200瓦,下一代HGX产品给出的参考功率更是高达单台10千瓦,远远超过传统机架式和刀片式服务器。而功耗高也带来了发热量大的新挑战,这是AI服务器和传统的服务器最大的区别。
设计AI服务器时,供电和散热是需要重点考虑的问题,相应的对兼容性和稳定性的要求也都不太一样。在GPU加速卡刚出现的时候,单卡功耗不超过250瓦,而现在已经达到300瓦,按照目前的趋势,加速卡功耗还会随着时间推移变得更高,当单块加速卡功耗达到350瓦以上的时候,传统的服务器结构就很难满足了。
“在这么高的压力下,单个机柜里能摆放的服务器数量是非常有限的。”许涛给我们算了笔账,“3200瓦的AI服务器,一般的电信机房单柜只能放2台,即便是20千瓦容量的高端水冷机房也只能放6台。综合考虑实际部署情况之后,我们发现4U是非常合理的AI服务器尺寸。XMachine的GPU仓高度为3U,不仅散热空间大,也为未来的维护预留了很大的空间。”
而对于个人工作站,中科曙光在最新的W560-G30产品上也采用了改进设计的3段式散热方案:
GPU区域:RTX6000显卡功耗达300瓦,拥有专门的散热空间,并且使用IPMI功能精准读取显卡状态状况并管理显卡功耗和风扇散热,控制相应的风扇风量,在保证显卡散热的同时将办公环境下的噪音压缩至最低,最高可支持2块显卡全速运转。
CPU区域:支持2颗共56个物理核心的至强铂金CPU,每颗CPU的功耗达205瓦;2颗CPU风道互相隔离,每颗CPU均有独立进风,保证CPU在高功耗下稳定工作,并可支撑进一步的超频空间。
电源区域:使用可7*24小时稳定提供1250瓦供电能力的铂金电源,并设计有电源的独立风道;时在放置于数据中心使用时,可支持冗余电源和基于BMC的远程管理功能,变身成为高性能GPU服务器。
灵活应对百花齐放的推理端市场
随着异构计算越来越流行,现在HPC Top 500里排名靠前的超高算力服务器基本上都用到了GPU加速卡或者其他加速部件。据雷锋网了解,目前NVIDIA已经基本垄断了AI计算的训练端市场,但在与用户应用贴合特别紧密的推理端,由于需要进行具体的应用部署,GPU作为一种通用计算单元的优势就会被削弱。
NVIDIA虽然面向推理端市场发布了T4计算卡,但是像Intel、赛灵思和寒武纪等公司,依然在积极开拓这一领域。根据介绍,XMachine系列AI服务器在设计上可以兼容多种加速器产品,这些芯片在市场中是互补的,中科曙光未来会针对不同应用场合推出使用不同加速芯片的服务器,就看终端用户的诉求是什么。
“在文字处理或信息导流等业务中,传统CPU的运算效率也很好;如果是需要捕捉黄金窗口期的商业化公司,那么NVIDIA T4这样的GPU加速产品可以让公司迅速上线项目。” 许涛为我们详细分析着几种不同的情况,“而对那些拥有特殊业务需求的定制化客户来说,他们需要经常迅速改换业务逻辑,这种情况下显然FPGA更适合。”
随后,许涛特别提到了寒武纪科技今年5月3日发布的首款云端智能芯片MLU100及对应的云端AI计算卡,并纠正了我们对国产AI芯片的一些认识误区。他表示,寒武纪MLU100芯片与NVIDIA P4/T4加速卡的设计理念大相径庭,二者在计算能力上并不能直接进行对比。
“寒武纪MLU100芯片所使用的AI框架和技术非常专一,可以快速实现CNN、RNN等各种各样的卷积过程,达到非常好效果,在特定的推理市场上给用户提供更好的加速。如果是与应用贴合非常紧密的研究型用户,寒武纪MLU100芯片可以在其特定环境下将算力发挥到极致。”
不担心被模仿
中科曙光此次发布的XMachine系列AI服务器,采用了CPU底板和GPU底板解耦的设计,未来可通过模块化组合的方式进行独立升级,以降低用户更新换代成本,最大限度保护投资。
为此我们不免担心,这种弹性灵活的创新设计,会不会慢慢被其他服务器厂商效仿?
对于这一问题,许涛很是自信:如果其他公司真的模仿我们的机器,说明我们引领了这个市场。
据悉,之前国内的GPU服务器来源基本都是OEM或ODM,但随着时间的推移,技术输入越来越困难,这些产品很难适应国内形形色色的定制化需求。
许涛坦言,中科曙光并不是国内第一家推出GPU服务器的厂商,但是他们希望可以做到最好,或者说可以在某些擅长的行业里面做到最好。而想要让产品始终保持先进的架构或结构,就要不停进行技术演进,一款产品成熟的过程就是一个反复迭代的过程。
“从我们自己的角度来看,现在的产品不应该是完美的,应该有新的版本不停迭代,让它变得越来越适用于用户应用场景,或者越来越适用于新技术的发展。”许涛解释道,“模仿是没有办法避免的,但在其他公司模仿的过程中,我们自身也在不停演进,所以我们并不担心产品被模仿。”
同时他还指出,随着技术的不断更新,很多技术要素想要模仿也是很困难的。中科曙光除与NVIDIA建立合作外,还与寒武纪等其他国产芯片合作,合作过程中需要投入大量技术资源和测试资源,这些投入都不是简单的模仿机器硬件可以实现的。
“从这个层面来讲,我们希望他们能模仿。如果其他公司真的模仿我们的机器,说明我们引领了这个市场。”
面向未来的云计算中心和先进计算平台
现在云计算已经不再像过去那样只停留在各种文章里面,随着认可度的逐渐提升,不管是专用云平台还是通用云平台都在慢慢落地,各种企业都越来越愿意为这份资源去花钱。
中科曙光的AI战略规划很大,一方面中科曙光有AI服务器自己的底层硬件产品,另一方面也在硬件产品的基础上设计配套软件,并拥有自己的云计算中心和先进计算平台。云计算中心既可以给用户提供计算资源,也希望能够通过虚拟化的技术,帮助那些有独特见解的用户实现他们的创意。
雷锋网(公众号:雷锋网)了解到,中科曙光在云计算领域的起步其实非常早,在成都、无锡、南京、包头等地都有为政府提供服务的城市云计算中心。但许涛清楚地知道,云计算中心也需要随着时代前进而不停演进,随着普及程度的提高,如果只停留在传统的发展模式下,未来的竞争力会越来越弱。
“从我们的角度来看,更希望能在某些特殊领域或行业里供专业的云服务。”许涛解释道,“中科曙光的体量是无法和BAT这种通用云平台抗衡的,他们的构架非常庞大,可以把很多业务都牵进去,但是对我们来讲,想要保持业务的先进性,只能在一些特殊领域或行业里做到最尖端。”
“为用户提供特异化的服务,使我们的优势很难被通用云平台模仿,这才是正确的发展方向,也是我们眼中未来的云计算市场。”许涛如是说。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。