AI正在迅速发展,对芯片算力和内存的要求也越来越高,但摩尔定律的放缓甚至失效让芯片靠先进半导体工艺来提高芯片的性能和能效难度越来越大。此时,无论是在芯片市场耕耘多年的芯片霸主还是科技巨头都纷纷研发AI芯片,新的芯片类型和技术也开始涌现。那么,eFPGA这种嵌入式的FPGA技术将如何推动AI的发展?7nm eFPGA的设计又将如何被AI的发展影响?
AI加速发展与摩尔定律放缓
AI的快速发展让智能语音助理几乎成了手机的标配,也让智能音箱的出货量连年上涨。于此同时,越来越多的手机正在使用AI技术优化拍照的效果以及对相册的照片进行分类。不过这些只是AI技术现阶段一些常见的应用,AI算法的不断演变正在让AI与更多的行业和应用结合,新的AI算法无论对芯片的算力还是内存等都提出了更高的要求,所有的AI芯片公司都在追求性能更高、功耗更低、面积更小的芯片。
回看芯片性能提升的历程,在1986年到2003年之间,芯片性能和功耗持续降低,到了2003年之后,凭借着多核的设计以及半导体工艺的进步芯片的性能依旧在提升,但摩尔定律显然已经放缓。2015年之后,芯片的提升越来越难,关于摩尔定律失效的讨论越来越多。
摩尔定律减缓
因此,CPU、GPU、FPGA、ASIC性能的提升和功耗降低都面临越来越大的挑战,另外,从16nm到7nm节点,芯片制造成本也在大幅提升。对于运算速度、数据传输、内存带宽都有较高要求的AI芯片,如何才能实现每瓦更高的性能以及更低的成本?
AI如何改变eFPGA的架构设计?
对于AI芯片,越来越多的芯片设计公司正在使用多核异构的架构来提升芯片的效率,满足深度学习算法的需求。除了多核异构的架构,具体的核的架构也都在不断针对AI优化,FPGA也不例外。值得注意的是,成立于2004年总部位于美国的Achronix提供的是嵌入式FPGA技术。Achronix的Speedcore IP是可以集成到ASIC和SoC之中的嵌入式FPGA(eFPGA),作为可配置的协处理器和硬件加速器来支持各种各样的任务,其比特位导向(bit-oriented)FPGA架构,比字段导向(word-oriented)的CPU架构更为高效,适用于SQL卸载、在线I/O处理、加密、搜索引擎算法性加速和增强多媒体处理等功能。
据雷锋网(公众号:雷锋网)了解,Achronix是唯一一家交付的eFPGA技术已经嵌入到ASIC中实现量产的公司,Speedcore IP适用的工艺节点包括TSMC 16nm FF+和英特尔的14nm FinFET,并已宣布将于2019年上半年开始提供适用于台积电7nm工艺的第四代Speedcore eFPGA IP。
Achronix市场营销副总裁Steve Mensor
除了支持最先进的制造工艺,7nm的eFPGA也进行了架构上的优化,其中非常关键的就是将机器学习处理器(MLP)增加到Speedcore可提供的资源逻辑库单元模块中。Achronix市场营销副总裁Steve Mensor表示:“MLP模块是一种高度灵活的计算引擎,它与存储器紧密耦合,利用了人工智能及机器学习处理的特定属性,将这些应用的性能提高了300%。可以同时提高每个时钟周期的性能和操作次数,一个MLP在1个时钟周期可以完成1个16×16的运算,8个8×8的运算,12个6×6的运算,16个4×4的运算。”
数据类型的支持对机器学习也非常重要,据悉MLP支持各种定点和浮点格式,包括Bfloat16、16位、半精度、24位和单元块浮点,也就是说可以根据应用选择最佳精度来实现精度和性能的均衡。至于在支持的数据类型的支持上是否会有所偏重的问题,Steve告诉雷锋网他们的eFPGA支持所有的数据类型,这也是FPGA可编程行的好处。
虽然能够支持所有的数据类型,但数据的存取耗能比计算耗能更多是所有AI芯片都不得不面对的问题。对此,Steve表示:“每个MLP包括一个循环寄存器文件(Cyclical Register File),用来存储重用的权重或数据,无需经过LUT,提升处理性能的同时还能降低功耗。”
另外,对于对机器学习计算密度比较高的应用,如果MLP还不能够满足希求,Speedcore Gen4查找表(LUT)可作为补充,可实现比独立FPGA高两倍的乘法器。
不仅仅是机器学习性能,Steve还表示:“我们的7nm eFPGA的逻辑单元、走线、路由架构、内存都进行了改进。”具体来说,查找表进行了全面的增强,更改包括将ALU的大小加倍、将每个LUT的寄存器数量加倍、支持7位函数和一些8位函数、以及为移位寄存器提供的专用高速连接,缩减面积和功耗并提高性能。另外,路由架构借由一种独立的专用总线路由结构得到了增强,该路由结构中有专用的总线多路复用器,可有效地创建分布式的、运行时可配置的交换网络,并且在业界首次实现了将网络优化应用于FPGA互连。
经过芯片架构的优化设计以及在7nm工艺的加持下,Speedcore Gen4性能提高了60%、机器学习性能提升300%、功耗降低50%、芯片面积减少65%。
Speedcore Gen4 FPGA提升
同时推7nm eFPGA IP和独立FPGA只为AI应用
AI对eFPGA不止于架构方面的改变,Steve表示采用台积电7nm工艺节点的Speedcore Gen4将于2019年上半年投入量产,并将在2019年下半年提供用于台积电16nm和12nm工艺节点的Speedcore Gen4 eFPGA IP。
雷锋网注意到,在7nm节点Achronix不仅提供eFPGA IP,还提供FPGA裸片可与SoC进行封装,并且还会推出独立的FPGA器件。至于提供IP为主的Achronix为什么要在7nm节点推出独立FPGA,Steve表示:“这更多的是基于用户需求的考虑。在AI的应用中,数据中心的加速、5G、自动驾驶都有不同的需求。独立的FPGA更够让他们能够更快的应用在数据中心,实现加速,也能更好地满足对7nm FPGA芯片用量更小的公司的需求。那些对芯片成本和面积更加敏感,或者想设计出性能更高的AI芯片的公司,则可以选择IP。当然SoC公司也可以选择合适的封装技术将我们的裸片与他们的SoC进行封装,实现更高的性能。”
Achronix 亚太区总经理罗炜亮
当然,硬件是根本,软件也将在AI中发挥着越来越重要的作用,许多芯片设计公司在AI时代也开始更多地与软件公司进行合作,但在发布会上除了Achronix的ACE设计工具,并没有其他针对AI的软件。Steve对此表示:“我们作为一家正在快速发展但规模还不够大的公司,目前我们主要是在硬件层面提供稳定且性价比高的不同的芯片,我们最高会做到Libiary层,软件方面则更多地与合作伙伴协作。”
高成本下谁需要7nm eFPGA?
至此,我们已经了解到,无论从架构设计还是需求角度,eFPGA都进行了优化,但还有一个非常关键的问题就是16nm到7nm制程带来的性能、功耗的提升在成本面前似乎吸引力不足。虽然Steve表示芯片设计公司购买7nm eFPGA IP的价格与16nm eFPGA IP的价格相比没有上涨,但是制造成本的陡增还是会让许多芯片设计公司望而却步。
Steve表示,7nm eFPGA主要的市场包括对计算性能和价格有要求的数据中心加速、对低功耗计算有要求的边缘计算、有低功耗和低成本要求的存储器、低功耗高性能并且需要有可编程性的5G基础设施、网络加速/智能网卡、自动驾驶。
7nm eFPGA市场
不过,其中一些应用是潜在市场,另外一些则是驱动Achronix推出7nm eFPGA的关键。Steve指出:“目前我们公司营收最重要的两个应用是5G基础设施和智能卡(SmartIC),5G对芯片有高性能和低功耗的要求,因此很多以前用FPGA的公司现在转到了ASIC,但还需要一些灵活性以应对协议的改变。智能卡则是在数据传输前就进行一些数据的处理,我们知道数据量以及数据的复杂程度都在增加,因此这两个场景对7nm eFGPA都有很大的需求。数据中心以及自动驾驶、存储都需求明确,至于边缘计算最合适的场景则需要看市场的发展。”
还值得一提的是,为了能够加速数据中心和汽车等应用中机器学习工作负载,Achronix将其eFPGA与Micron的GDDR6存储器相结合,第四代eFPGA中有8个增强的GDDR6存储器接口,通过这种联合解决方案,可以应对深度神经网络中包括存储大数据集、重权重参数和存储器激活;底层硬件需要在处理器和存储器之间存储、处理和快速移动数据等挑战。
雷锋网小结
AI算法还在不断的迭代和发展,因此通用性更强的CPU、GPU虽然能够完成相应的算法,但是效率越来越低,成本也越来越高,这推动了芯片架构的革新。我们看到越来越多的AI芯片采用多核异构,通过不同的核心组合提升性能和效率,更好地满足AI的需求。
从Achronix eFPGA的改进中我们也看到了其在逻辑单元、走线、路由架构方面都进行了改进,并且增加了MLP,为减少数据搬运的耗能,还搭载了片上存储,同时为了解决深度学习的固有问题,率先在FPGA中支持GDDR6。
AI应用与AI芯片就是在这样的相互影响下推动AI向前发展。
相关文章:
赛灵思发布7nm ACAP加速平台Versal与数据中心&AI加速器卡Alveo
收购 Altera 近三年,Intel 终于把 FPGA 卖给了数据中心 OEM 厂商
Intel推出基于Movidius和Arria FPGA的视觉加速产品,简化边缘计算设备
雷锋网原创文章,未经授权禁止转载。详情见转载须知。