昨日,Nvidia在GTC 2016大会上正式发布了新一代的Pascal架构显卡,作为该家族中第一张亮相的显卡,搭载新核心GP100的Tesla P100正式亮相。
据Nvidia介绍,NVIDIA Tesla P100将由台积电代工,并使用与华为麒麟950同等工艺的16nm FinFET打造,将拥有高达153亿个晶体管和16GB 4096 bit HBM2堆叠内存。
在计算能力上,Tesla P100可提供5.3 Teraflops的双精度性能、10.6 Teraflops单精度性能以及适用于深度学习的21.2 Teraflops半精度性能。
虽然被削,参数依然漂亮
从这张P100与K40、M40的参数对比图中,可以看出Tesla P100中的GP100其实是“阉割版”,这一点Nvidia官方也已承认:
标准的GP100核心中应该内建有3840个CUDA核心、240个纹理单元以及最高支持32GB的HBM2显存;
而P100中的GP100核心却采用了3584个CUDA核心、224个纹理单元以及被削减了一半的16GB HBM2显存。
而这直接带来的就是在单精度运算上的提升幅度并不明显——
10.6 Teraflops的运算能力与前代的7 Teraflops相比只提升提升了50%。
虽然50%看起来已经挺多了,要知道CPU近年来的换代性能提升也不过10%左右。然而,考虑到P100从28nm LP制程到16nm FinFET制程的跨越,以及新架构带来的优化,这个数字远没有达到此前15Tflops的预期。
不过这也可能是出于对成本的考量,毕竟P100是面向高性能通用计算领域开发,将大部分晶体管性能放在了双精度运算性能上将更具性价比。
相比于GK110的0.2 Teraflops,P100 5.3 Teraflops的性能提升非常的可观。即使是和2013年的K40相比,也已经翻了4倍。
与友商的对比
AMD
在几天前的3月31日,友商AMD也发布了自家新一代旗舰级计算卡FirePro S9300 X2。
FirePro S9300 X2中搭载了两颗AMD Fiji架构核心、两组4096-bit 4GB HBM 显存,单精度浮点性能在13.9 Teraflops,双精度浮点性能为0.8 Teraflops。
P100与之相比,在单精度浮点性能显得稍逊一筹。不过考虑到AMD采用的是双核心解决方案,而且此次P100也在单精度浮点上做了阉割,如果是拼单核恐仍难逃被Nvidia吊打的命运。
Intel
另一方面,Intel也已于2015年11月对旗下的对标产品——第二代Xeon Phi做了预告。
据称新一代产品代号为“Knights Landing”,同样采用14nm工艺。搭载72颗Silvermont架构核心,单颗支持四线程,总计288个线程。计算方面,双精度浮点性能将达到3 Teraflops,单精度为6 Teraflops。
从数据上也能看出,CPU与GPU在通用计算效率上的劣势即使是老大哥Intel也无能为力。
应用场景
NVIDIA DGX-1
在大会上,老黄还高调宣布了基于Tesla P100打造的深度学习服务器——NVIDIA DGX-1。
据介绍,DGX-1可以提供170 Teraflops的深度学习计算性能,比自家一年前提出的NVIDIA Maxwell架构四路解决方案快12倍,以前需要25个小时完成的训练任务现在2个小时就可以完成。
虽然性能十分可观,但是售价也是十分吓人的——一台的售价为129,000美元(约合835,000元人民币)。
NVIDIA Drive PX 2
虽然GTC大会上,基于GP100顶级核心的Tesla P100被多家媒体称为“首款Pascal架构的产品”。但其实今年1月,基于Pascal架构的Drive PX 2自动驾驶平台就已经发布,只是当时并没有正式公布而已。
此次,老黄公布了Drive PX 2的具体参数:
CPU:8核A57+4核 Denver 架构核心
GPU:2颗Pascal架构独立显卡
内存:8GB LPDDR4
功耗:250W
其他特性:水冷
其中每颗显卡核心为GP106核心,主频为1.25GHz,搭配80GB/s带宽、128bit位宽的4GB GDDR5显存。单精度浮点运算性能为8TFLOPS。
在现场,Nvidia还展示了基于这款自动驾驶平台打造的无人驾驶赛车——“Deep Green”。它将代表参加2016-2017赛季无人驾驶赛车竞技大赛“ROBORACE”。
后记
虽然每次Nvidia发布新产品都能给人以眼前一亮的感觉,但是我们如果冷静下来分析不难看出Nvidia此次发布新品并没有此前那么有底气。
P100作为第一款应用16nm工艺的产品,初期的良品率应该不会如28nm那般成熟,而再加上现场看到的散热模块仍然是经典的单风扇散热,以及300W的TDP,不难想象这又将是Nvidia新一代“高性能核弹”。
虽然老黄在现场讲了许多使用场景,但是却丝毫没有提跑分成绩。这不禁让人想起在年初的CES 2016上,首次发布GP100核心之时却使用GM200核心充数拿上台被人无情拆穿的情景。
相比于AMD在年初的发布会上现场上机跑分,或许,不敢如此做的Nvidia只是因为老黄拿着的是套了散热器(为了让人看不出来里面的核心)的PCB板子而已吧。
在GM200上Nvidia还选择大幅削减双精度计算,从而减少发热量和成本,而此次刚刚步入16nm工艺就如此大跨步的追求性能极致,恐怕进入量产和实际应用之后问题就将会凸显。而首当其冲的就是HBM2显存量产问题,毕竟目前连AMD率先推出的HBM一代都没做到量产,直接跨到HBM2,AMD对此也只能呵呵了吧。
毕竟,步子迈太大,容易扯到蛋。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。