AI模型扩展下，HBM难满足需求，GPU存储架构或成前沿

8 0 0

HBM容量瓶颈逼近极限

参数规模在以惊人速度膨胀的AI模型，正从千亿级迈向万亿级目前，速度极快的当前HBM（高带宽内存），其容量增长却跟不上模型扩张的步伐NVIDIA H100的80GB显存，对于Meta的Llama 3.1 405B模型而言，已经显得捉襟见肘行业预测，到2027年，主流AI模型可能需要1TB以上的显存容量，但这远超现有HBM堆叠技术的经济性和物理极限。随机存取存储器的位成本大致为动态随机存取存储器的三至四倍，要是仅仅依靠堆叠更多的层数去实现扩容，那么系统的总成本将会失去控制。

英伟达GIDS架构登场

英伟达正开展着一项开发工作，其对象是一套全新架构，这套架构有着GIDS这样的名称，也就是GPU-Initiated Direct Storage ，并且计划从下一代Vera Rubin平台着手引入。这样一项技术具备允许GPU绕开CPU以及系统DRAM的特性，能够直接朝着NVMe SSD发起数据请求。和现有的GDS，也就是GPU Direct Storage不一样，在GIDS里CPU不再担当数据传输的中介角色，GPU实实在在地成为了存储访问的主导者。这就好比是使得GPU能够自主地去动手进行翻阅书籍的行为动作，并非是于每一次的情况之下都要依靠CPU来协助它完成翻页的操作，如此一来数据传输延迟有着极大的可能性会被大幅度地降低。

GIDS与GDS本质区别

在传统GDS模式之时，CPU会先朝着SSD发出数据请求，数据会先经由PCIe总线抵达系统DRAM，接着再被拷贝至GPU显存。而在GIDS里，GPU是直接借助NVMe协议去与SSD进行通信的，数据通路被缩短了一半。微软以及AMD也正在探讨类似技术，由于当下CPU在处理数百万个并行I/O请求之际，线程调度变成了瓶颈。GPU自身能够生成数万个并行线程，天然地便更适宜去处理海量小数据块的随机读取，这恰恰是AI推理工作负载的典型特性。

HBF闪存方案应运而生

由SK海力士跟闪迪合作推出的HBF（High Bandwidth Flash）技术，乃是专门为GIDS架构量身打造的存储解决方案，HBF把超高速NAND闪存封装于更靠近GPU的地方，借由类似HBM的硅中介层达成高带宽连接，NAND闪存的位密度约是DRAM的30倍，在同样物理空间中能够提供30倍容量。以H100的80GB显存作为例子，要是用HBF去替代一部分HBM，在相同的空间当中能够实现2.4TB的存储容量，这样的容量是足够来装载当下最大的AI模型的。

写入耐久度成关键挑战

每个存储单元的写入次数有限存于NAND闪存，TLC颗粒约1000 – 3000次可写入，而DRAM有着几乎无限的写入耐久度。这正是被定位为AI推理专用存储的核心原因所在的HBF，在推理过程里，模型参数于多次前向计算中保持不变，仅仅是作为只读数据被反复读取。适合存储模型权重矩阵和嵌入表等静态数据的是HBF，而保留给频繁更新的激活值和梯度等动态数据的则是HBM。这种分工能够将NAND寿命延长至5 – 10年，与GPU服役周期相匹配。

功耗与性能平衡新思路

现今，GPU跟HBM之间的数据传输，已然占据系统总功耗大概50% ，在一个800W的GPU模组里头，单单内存接口就耗费400W。GIDS协同HBF架构，把部分数据从不HBM卸载至NAND闪存，能够削减HBM的容量需求，进而降低内存功耗。与此同时，NAND闪存支持高并行度读取，能够满足AI推理里对参数的低延迟预取需求。预想直至二零二八年时，HBF方案能够致使AI服务器的总体拥有成本下降百分之三十至百分之四十，其主要源于HBM所节省下的成本，以及更低的散热开支。

在你看来，当AI模型参数都被存入SSD之后，GPU显存所具有的容量方面的问题，是不是能够被完全地予以解决呢，欢迎于评论区域分享你自身所抱持的看法，去点赞并进行转发操作，从而让更多的人得以看到这场存储领域所兴起的革命。