2月25日至27日,第23届USENIX文件与存储技术会议(USENIX Conference on File and Storage Technologies,FAST)在美国圣克拉拉举行。计算机系教师章明星、武永卫、郑纬民团队和月之暗面公司合作发表的论文“以键值缓存为中心的以存换算大语言模型推理架构”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)获得埃里克·里德尔最佳论文奖(Erik Riedel Best Paper Award)。论文的第一作者为计算机系博士生秦若愚,导师为助理教授章明星。
最佳论文奖
该论文提出的系统Mooncake是月之暗面公司推出的大语言模型服务Kimi的底层推理服务平台。Mooncake采用了一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分离,还高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC资源,构建了一个独立的KVCache缓存池。其核心创新在于以KVCache为中心的全局缓存和调度器,旨在严格延迟相关服务级别目标(SLOs)下最大化吞吐量。
实验结果显示,Mooncake在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake在符合SLOs的情况下,将有效请求处理能力提升了59%至498%。目前,Mooncake已在数千个节点上运行,每日处理超过1000亿个token。在实际部署中,Mooncake的创新架构使Kimi在NVIDIA A800和H800集群上分别比以前的系统多处理115%和107%的请求。
FAST(File and Storage Technologies)是计算机存储领域的顶级学术会议,已创立二十余年,在存储领域具有重要影响力,被中国计算机学会(CCF)认定为存储系统领域的A类国际学术会议。