HBM容量瓶颈逼近极限
参数规模在以惊人速度膨胀的AI模型,正从千亿级迈向万亿级目前,速度极快的当前HBM(高带宽内存),其容量增长却跟不上模型扩张的步伐NVIDIA H100的80GB显存,对于Meta的Llama 3.1 405B模型而言,已经显得捉襟见肘行业预测,到2027年,主流AI模型可能需要1TB以上的显存容量,但这远超现有HBM堆叠技术的经济性和物理极限。随机存取存储器的位成本大致为动态随机存取存储器的三至四倍,要是仅仅依靠堆叠更多的层数去实现扩容,那么系统的总成本将会失去控制。
英伟达GIDS架构登场
英伟达正开展着一项开发工作,其对象是一套全新架构,这套架构有着GIDS这样的名称,也就是GPU-Initiated Direct Storage ,并且计划从下一代Vera Rubin平台着手引入。这样一项技术具备允许GPU绕开CPU以及系统DRAM的特性,能够直接朝着NVMe SSD发起数据请求。和现有的GDS,也就是GPU Direct Storage不一样,在GIDS里CPU不再担当数据传输的中介角色,GPU实实在在地成为了存储访问的主导者。这就好比是使得GPU能够自主地去动手进行翻阅书籍的行为动作,并非是于每一次的情况之下都要依靠CPU来协助它完成翻页的操作,如此一来数据传输延迟有着极大的可能性会被大幅度地降低。
GIDS与GDS本质区别
在传统GDS模式之时,CPU会先朝着SSD发出数据请求,数据会先经由PCIe总线抵达系统DRAM,接着再被拷贝至GPU显存。而在GIDS里,GPU是直接借助NVMe协议去与SSD进行通信的,数据通路被缩短了一半。微软以及AMD也正在探讨类似技术,由于当下CPU在处理数百万个并行I/O请求之际,线程调度变成了瓶颈。GPU自身能够生成数万个并行线程,天然地便更适宜去处理海量小数据块的随机读取,这恰恰是AI推理工作负载的典型特性。
HBF闪存方案应运而生
由SK海力士跟闪迪合作推出的HBF(High Bandwidth Flash)技术,乃是专门为GIDS架构量身打造的存储解决方案,HBF把超高速NAND闪存封装于更靠近GPU的地方,借由类似HBM的硅中介层达成高带宽连接 ,NAND闪存的位密度约是DRAM的30倍,在同样物理空间中能够提供30倍容量。以H100的80GB显存作为例子,要是用HBF去替代一部分HBM,在相同的空间当中能够实现2.4TB的存储容量,这样的容量是足够来装载当下最大的AI模型的。
写入耐久度成关键挑战
每个存储单元的写入次数有限存于NAND闪存,TLC颗粒约1000 – 3000次可写入,而DRAM有着几乎无限的写入耐久度。这正是被定位为AI推理专用存储的核心原因所在的HBF,在推理过程里,模型参数于多次前向计算中保持不变,仅仅是作为只读数据被反复读取。适合存储模型权重矩阵和嵌入表等静态数据的是HBF,而保留给频繁更新的激活值和梯度等动态数据的则是HBM。这种分工能够将NAND寿命延长至5 – 10年,与GPU服役周期相匹配。
功耗与性能平衡新思路
现今,GPU跟HBM之间的数据传输,已然占据系统总功耗大概50% ,在一个800W的GPU模组里头,单单内存接口就耗费400W。GIDS协同HBF架构,把部分数据从不HBM卸载至NAND闪存,能够削减HBM的容量需求,进而降低内存功耗。与此同时,NAND闪存支持高并行度读取,能够满足AI推理里对参数的低延迟预取需求。预想直至二零二八年时,HBF方案能够致使AI服务器的总体拥有成本下降百分之三十至百分之四十,其主要源于HBM所节省下的成本,以及更低的散热开支。
在你看来,当AI模型参数都被存入SSD之后,GPU显存所具有的容量方面的问题,是不是能够被完全地予以解决呢,欢迎于评论区域分享你自身所抱持的看法,去点赞并进行转发操作,从而让更多的人得以看到这场存储领域所兴起的革命。
