根据Tom's hardware 的报导,存储大厂铠侠(Kioxia) 正在准备推出一款突破性的“AI 固态硬盘(SSD)”,目的彻底改变AI 伺服器的储存生态,并显著提升其效能。这款创新的SSD 预计将成为AI 工作执行的关键推动者,特别是针对大型语言模型(LLM) 和检索增强生成(RAG) 系统。 报导指出,目前现代AI 伺服器面临的一个主要效能瓶颈是储存与图形处理单元(GPU) 之间的资料传输效率。由于资料通常需要透过中央处理器(CPU) 进行传输,这会大幅增加延迟并延长存取时间,进而阻碍GPU 核心的满载利用。 而Kioxia 的“AI SSD”正是为了解决这个核心问题而设计。该公司计划打造一款专门针对最大化输入/输出操作每秒(IOPS) 而优化的新型控制器,目标是在小区块工作执行下达到1,000 万IOPS 以上。这项效能指标是当前许多高阶资料中心SSD 的三倍以上,这些SSD 通常在4K 和512 位元组随机读取操作中达到200 万到300 万IOPS。 为达成此惊人效能,Kioxia 的“AI SSD” 将采用其单层储存(SLC) XL-Flash 记忆体。 XL-Flash 的读取延迟仅为3 到5 微秒,这与采用传统3D NAND 的SSD 所提供的40 到100 微秒读取延迟相比,是显著的提升。此外,透过每单元储存一位元,SLC 不仅提供更快的存取时间,也拥有更卓越的耐用度,这些都是要求严苛的AI 工作负载所不可或缺的属性。 报导指出,这款“AI SSD”的另一项关键创新是其对GPU 与SSD 之间点对点通讯的优化。这将允许资料直接在GPU 和SSD 之间传输,完全绕过CPU,从而进一步降低延迟并提升整体效能。这种设计理念对于保持GPU 核心始终处于100% 利用率至关重要。 在资料区块大小方面,Kioxia 的“AI SSD”将特别优化512 位元组区块的存取。虽然从频宽角度来看,使用4K 或更大区块通常更具意义,但大型语言模型(LLM) 和检索增强生成(RAG) 系统通常需要对嵌入、参数或知识库条目进行小而随机的存取。在这些情境下,512 位元组等小型区块更能代表实际应用程式的行为,并且能更好地满足LLM 和RAG 在延迟方面的需求。 此外,GPU 通常在32、64 或128 位元组的快取行上操作,其记忆体子系统也针对对许多小而独立记忆体位置的突发存取进行了优化,以确保所有串流处理器都能持续运作。因此,512 位元组的读取与GPU 设计更为契合,这也是Kioxia(以及Nvidia)计划使用512 位元组区块的另一个原因。 现阶段尽管Kioxia 尚未揭露其“AI SSD”将使用何种主机介面,但从频宽角度来看,它似乎不需要PCIe 6.0 介面。这款前瞻性产品预计于2026 年下半年发布,届时有望为AI 伺服器带来显著的效能飞跃,进一步推动人工智慧技术的发展。 |