数据中心的计算和存储要「分家」?

为了突破算力的瓶颈,AI芯片领域探索计算和存储融合,寄希望于存算一体带来的变革。

同样是为了实现更好性能,满足灵活性需求,数据中心却要将两大核心要素计算和存储解耦,或者通俗理解为分家。

中国计算机学会(CCF)信息存储技术专委会主任舒继武表示:“算力的多样化,高速网络、低时延介质等底层技术的发展,让数据中心从以CPU为中心的紧耦合架构,走向以数据为中心的存算分离的Diskless架构演进。

Diskless架构将服务器本地盘拉远,构成Diskless的服务器和远端存储池,将原有架构的多级分层资源彻底解耦池化和重组整合,实现各类硬件的独立扩展及灵活共享。

那到底为什么需要Diskless架构?Diskless架构能发挥怎样的优势?

传统数据中心架构面临哪些挑战?

传统数据中心体系架构是典型的多级分层架构,从服务器到网络到存储,每一层都是独立围绕CPU、内存、总线、硬盘等组件构成的完整计算机系统。当新的数据应用出现的时候,为了快速部署新业务,企业通常采用最简单的应用与本地盘耦合的服务器一体化架构。

然而,计算、存储等硬件资源发展速度不均衡,算力生命周期和数据生命周期的差异越来越大,导致传统IT架构存在的扩展不灵活、资源闲置、利用率低下等问题显现。

数据中心的计算和存储要「分家」?

天翼云高性能网络首席架构师樊小平表示,“比如CPU升级的周期是2-3年,存储的周期更长。但因为传统存算融合的数据中心架构下,CPU和存储固定的配比没有办法单独升级CPU或存储。”

传统存算一体服务器架构实际面临容量利用率三大挑战:存储资源利用率低;性能可靠性与资源利用率难以兼得;扩展性差,带来运维、成本问题。

数据中心的计算和存储要「分家」?

同时,还有数据中心三大税带来算力和IO效率挑战。

首先,CPU处理流程很复杂,要进行网络/存储IO的处理,要消耗30%的算力,这被称之为主力计算税。其次,存储系统仍为CPU 为中心的架构,数据路径无法直通盘,时延增加20%,这就是存储算力税。最后,存储协议面向HDD介质设计,协议厚重,协议处理导致带宽下降10%,这又有了存储协议税。

“从应用的角度,现在有很多应用,其中的应用容器要求最好能够不依赖服务器,能做到灵活部署和数据共享。同时,还希望按需实现细粒度 (fine granularity)资源分配。”舒继武说,“应用容器化带来计算和存储资源灵活部署、数据全局共享的强烈诉求。”

除了应用对传统数据中心架构带来了新的挑战,计算、网络、存储技术的发展将催生新的架构。

具体而言,算力方面,CPU依旧可以再传统的Web应用、数据库等场景发挥作用,GPU在图形处理、深度学习处理等领域有优势,新兴的DPU可以卸载网络、存储、安全功能。数据中心的算力朝着多样化方向发展,按需运行并满足用户业务多种需求,这时候,算力池化是必然选择。

网络层面,低时延内存网络的发展,加速服务器内存与性能盘的Disaggregate池化。网络技术的发展,提高了系统资源池化的能力范国,特别是可促使内存资源池化。

存储也有新的趋势,新型分布式应用催生了轻量、高效的共享存储系统发展,有效支撑了传统数据中心架构朝极简分层的新型存算分离架构演进。

数据中心的计算和存储要「分家」?

于是,在应用的推动下,在算力、网络和存储技术发展的新趋势下,多种因素共同催生了数据中心新的架构Diskless。

数据中心Diskless架构有哪些特点和关键技术?

由中国计算机学会(CCF)信息存储专委会主编,天翼云、中国电子云、中科驭数、华为等十余家企业联合撰写的《数据中心Diskless架构》白皮书提到,Diskless架构突破了传统以通用CPU为中心的处理逻辑,使数据处理等CPU不擅长的任务被专用加速器、DPU等替代,实现能效比最优的硬件组合。

数据中心的计算和存储要「分家」?

具体看,全新的数据中心Diskless架构主要分为三大部份:

  • 新型盘/框存储:介质、芯片和系统深度协同的极简、大存力存储,替代本地盘实现数据共享。

  • 高通量数据总线:高性能、低时延的远程数据访问总线,解决磁盘拉远的访问时延。

  • 高效数据处理算力:实现网存协同,数据处理卸载、加速,提升10处理效率和性能。

舒继武进一步解释,在新型盘/框存储部份,介质、芯片和系统做了深度的、极简的融合,把算力和存储解耦,形成数据的共享。极简的特性和功能包括纠删码、压缩等。

要真正做到高效的共享,网络是很关键。数据中心Diskless架构中的高通量数据总线,有CXL、PCIE、NoF等,可以解决磁盘共享之后访问的时延,以降低时延。

在算力部份,由于数据中心Diskless架构计算和存储的解耦,数据中心中的各种类型的芯片,比如CPU、GPU、DPU都能充分发挥自身的优势,灵活满足应用的需求。

还有非常重要的一点,Diskless架构也能很好满足新型分布式Serverless的应用。

由此,也能看出Diskless架构涉及五大关键技术:

一、场景化数据缩减,也就是针对不同场景的数据特征,可使用不同的数据缩减技术;

二、数控分离,数据bypass CPU,从智能网卡、DPU直通到盘,建极简的快速数据访问路径;

三、盘芯协同,盘芯片和控制器芯片的深度融合,提高集成度,达到最低成本;

四、高通量网络,存算模组问通过CXL Fabric、NoF、IP等多协议网络实现高性能数据交換;

五、网存协同,智能网卡和DPU的硬件加速,实现高效的数据协同处理。

数据中心的计算和存储要「分家」?

Diskless架构的优势和挑战是什么?

新的数据中心Diskless架构对于那些应用更有优势呢?华为闪存存储领域副总裁吴伟举了三个典型例子,首先是云和互联网场景,当中非常重要的虚拟化技术,引入Diskless架构以后,对云和计算过程中解决不了的问题,解决不好的问题,可以帮助其解决。

还有数据库、大数据,冷热数据分级的问题,现在的业务都要提供大内存,提供一些接口,还有软件的处理,Diskless架构通过专用的存储替代本地盘,计算存储独立扩展,可以避免投资浪费,节省成本。

第三个场景是大多数的云场景,特别是云场景中的容器。新的业务场景,传统的存算一体的架构无法适应容器弹性的伸缩、敏捷特性。Diskless架构可以通过外置存储将上一层的容器和下一层的存储进行分离。

Diskless 架构优势突出,但作为新提出的架构也难免面临挑战。

舒继武提到,“构建Diskless 架构系统,面临技术、生态方面的挑战,内存访问语义、网存协同存储语义都还处于探索阶段,如何与现有生态应用协同,需要产业界、学术界专家共同探索解决。”

数据中心的计算和存储要「分家」?

天翼云作为率先实践Diskless架构的企业,已经有所探索。樊小平分享,“我们分阶段和步骤实践Diskless架构。先实现半卸载,再实现全卸载。”

“天翼云结合定制的CPU、智能网卡、服务器,按计划推进Diskless架构。Diskless架构是数据中心的趋势,我们天翼云主要集中于DPU,还有RDMA、用户TCP的演进和实践。”樊小平表示。

数据中心的计算和存储要「分家」?

数据中心的计算和存储要「分家」?

雷峰网认为,Diskless架构作为一个新兴的架构,还需要像华为、西部数据、美光等盘框型厂商的支持,也需要系统型厂商的共同推动,《数据中心Diskless架构》白皮书发布会上国内DPU公司的集体支持,也更让人对Diskless架构的未来充满期待。雷峰网(公众号:雷峰网)

雷峰网原创文章,未经授权禁止转载。详情见转载须知

(完)