近日(4月12日),雷锋网受邀参加了英伟达在北京国家会议中心举行媒体发布会。会上英伟达展示了其发布不久的基于Pascal 架构的Quadro系列显卡,包括:GP100、P2000、P4000、P5000、P6000 等。不同于Geforce的消费级娱乐定位,Quadro立足高端,面向专业级的需求,英伟达的愿景是让它们能够将台式工作站转变为具有突破性能力的超级计算机,并为不同行业的专业任务提供保障。
Quadro系列显卡(雷锋网(公众号:雷锋网)现场拍摄)
Pascal 架构的全新NVIDIA Quadro产品阵容致力于为企业提供视觉计算平台,简化设计和仿真工作流程。与上一代产品相比,新Quadro产品不仅具有超快速内存,而且速度最多可以提升两倍(基于SPECviewperf 12 基准的计算结果)。
其中GP100为该系列的旗舰产品,被科技媒体和粉丝们称为超当量核弹。
Quadro GP100参数及系列特点
GP100
GP100基于 Pascal 核心,匹配16GB HBM2显存,单精度CUDA核心数 3584个,双精度CUDA核心数 1792个,半精/单精/双精浮点运算性能分别是20TFLOPS、10TFLOPS和5TFLOPS,带宽高达720GB/s,功耗235W 。同其他新发布的专业卡一样,它的性能提升也是全方面的(比如同步多重投影、VRWorks、Iray VR),同时还强化了虚拟化、Sync II、双路NVlink等。
这也是NVlink首次在Windows系统上获得支持,此前仅仅用于IBM Power8系统和基于Linux的DGX-1,带宽最高80GB/s。
这个系列官方给出的特点如下:
统一仿真、HPC、渲染和设计 – GP100将前所未有的双精度性能与16GB的高带宽内存(HBM2)相结合,因此用户可以在设计过程中进行仿真,并以前所未有的速度采集逼真的多物理场仿真。客户能够将两个GP100 GPU与NVLink™技术相结合,并扩展到32GB的HBM2,以在单一工作站上创建庞大的可视化计算解决方案。
扩展后的Quadro P6000(雷锋网现场拍摄)
探索深度学习 – GP100提供超过20 TFLOPS的半精度计算,可谓在Windows和Linux环境中进行深度学习的理想开发平台。
将VR集成到设计和仿真工作流程中 – VR 认证的Quadro GP100和P4000具有创建详细、逼真、沉浸式环境的能力,能够大规模实现更加宏大、更加复杂的设计体验。
尽享照片级真实感设计的优势 – 基于Pascal 架构的Quadro GPU 渲染照片级真实感图像的速度为CPU的18倍 。
创建广阔的可视化工作区 – 可在多达四个5K显示器上以高分辨率和HDR颜色显示数据。
经济高效地构建超高分辨率及多显示屏配置 – 通过将多达8个P4000 GPU和两个Quadro Sync II显卡相结合,可通过单一机箱实现多达32个4K显示器的配置。
GPU在CAE上的应用
Sandeep Gupte
CAE(Computer Aided Engineering)指工程设计中的计算机辅助工程。英伟达专业可视化业务高级总监 Sandeep Gupte 表示:
对于这部分用户,大部分是使用类似Ansys、ABAQUS等分析软件求解复杂工程和产品的结构力学性能。大规模的数据计算往往让设计分析的过程十分漫长,而如果使用CPU+GPU加速的方案将会大大的节省运算时间。
GPU 加速计算是指在完成应用任务时,同时利用GPU 和 CPU。由于GPU出色的并行任务处理能力,将应用程序中计算密集部分的工作负载转移到 GPU,同时仍由 CPU 运行其余程序代码。这样,从用户的角度来看,应用程序的运行速度明显加快。
流言终结者中有一段很有意思的视频,为我们直观的展示了相比于CPU,GPU的并行计算为什么有如此令人震撼的优势。
Sandeep举了个实际的例子,在现场一个集成了一张GP100 的工作站里,工作人员使用ABAQUS对一个模型进行了470万的网格划分和计算,由于时间关系,现场并未将计算完成。这是因为类似这样大规模的计算,往往需要运行数十个小时甚至是数十天才能完成。不过Sandeep告诉雷锋网,相比仅使用CPU计算的方案,GPU加速可以将计算时间将缩短为原来的1/3。
GPU在真实物理渲染(PBR)上的应用
也许你觉得CAE的栗子还不够震撼,在图形渲染方面,英伟达中国区销售总监何犹卿表示,目前主流的渲染器都已经在做GPU加速平台,因为一帧4K的电影画面,如果还使用CPU渲染,需要288小时,而用GPU渲染只需要3个多小时。
GPU在深度学习上的应用
在深度学习领域,也是高性能GPU大展拳脚的地方,近年来深度学习的大发展除了科学家们孜孜不倦的学术探索外,和GPU运算能力的突飞猛进也密切相关。英伟达CEO黄仁勋曾表示:
计算机科学家综合 Yann LeCun 的卷积神经网络、Geoff Hinton 的反向传播算法,以及 Stochastic 的梯度下降训练法,加上吴恩达 (Andrew Ng) 对 GPU 的大规模应用,来加快深度神经网络 (DNN) 的运算速度,才促进「深度学习」这项现代人工智能技术出现大爆炸般的发展局面。
对于人工智能未来将对设计工作产生的影响,Sandeep介绍了一种叫做生成式制造流程的人工智能概念设计方法。比如设计者要设计一把椅子,一般情况下需要通过CAD软件设计出两三个方案,然后交由决策者选择。而有了人工智能参与后,设计者仅需提出边界条件,例如承重多少,自重多少,尺寸如何等等,人工智能就可以自动生成出上百种的设计方案供决策者挑选,这不但有助于遴选出最佳的设计方案,还能大大的缩短设计的周期。
GPU在VR上的应用
在VR的应用方面,为消费级玩家所熟知的Geforce系列更多是针对个人娱乐的应用,而Quadro系列则是面向专业级的任务。如果仅仅是游戏,即便画面的真实感和准确性有些许偏差,也不会造成太严重的后果。但是如果是在工作决策中使用,那么就要求画面尽可能的逼真,这时候就需要Quadro系列显卡和 Iray VR了。
据Sandeep介绍, Iray 是Nvidia的一款逼真的渲染解决方案,现已许可给 Dassault Systèmes 和 Autodesk 等软件厂商。 利用 Iray 应用,连接至 Quadro 视觉计算设备(VCA)后,就可以享受逼真的渲染体验。 把多个 Quadro VCA 结合到一起后,基于光场实时计算,操作模型或场景时还能够捕捉到细微的光线和反射。
QUEST计划
Sandeep还提到英伟达首次在国内推出了QUEST计划(Quadro Embedded System Program),即基于Quadro的嵌入式系统计划,针对高性能嵌入式系统的开发者,开发企业可以申请加入此计划,英伟达将和他们合作设计适用于他们解决方案的GPU。除此之外,英伟达还会提供设计包(Design Kit)、SDK、样本代码、训练等。该项目免费,并且没有设置申请数量的限制,但是由于致力于一同打造品质、可靠性和性能俱佳的高性能嵌入式解决方案,所以英伟达在合作伙伴的遴选上会比较谨慎。
雷锋网原创文章,未经授权禁止转载。详情见转载须知。