万亿参数模型背后:HBM崛起

来源:爱集微 #AI# #HBM#
1.2w

系统效率由关键组件的性能决定。对于人工智能(AI)硬件系统,内存子系统性能是最关键的因素。在这篇文章中,我们将概述AI模型概况以及高带宽存储器(HBM)子系统对有效系统性能的影响。

AI模型已从上世纪90年代的数十亿参数发展到今天的万亿参数模型(TPM)。90年代的统计语言模型(SLM)有数亿参数,主要针对语音、文本处理和预测下一个单词。在早期,与当时可用的AI模型规模相比,硬件系统的处理能力和内存需求非常充足。

在过去几十年里,互联网的迅猛发展催生了具有互联网规模的数据集。随着越来越庞大的图像数据集可供使用,神经网络成为训练的首选算法。随后,拥有数十亿参数的大语言模型(LLM)应运而生。AI模型的最新一代是多模态模型或大型多模态模型(LMM)。这些模型通过多种类型的数据集进行训练,比如文本、图像、音频、视频,及其相互依赖关系,从而造就了万亿参数模型,未来将出现100个万亿参数模型。

在需求端,AI应用也在不断增多。例如,用于股票交易和医学成像的专用模型正在开发中。所有这些都表明,在模型开发领域存在着巨大的机遇,从而导致对AI处理能力的巨大需求。大语言模型以每两年410倍的速度增长,而训练所需的计算能力则以每两年750倍的速度增长。

就AI硬件系统而言,以浮点运算(FLOPs)衡量的计算能力以每两年3倍的速度增长,以每秒千兆比特(Gbps)衡量的DRAM带宽则以每两年2倍的速度增长。很明显,大语言模型的增长速度远远超过了摩尔定律。同样明显的是,内存带宽的增长速度是AI生态系统中的限制因素,从而给AI硬件系统的性能造成了瓶颈。事实上,‌Tcl编程语言发明者、斯坦福大学计算机系教授John Ousterhout早在1990年就曾预测到这一限制。后来,在1994年,美国弗吉尼亚大学教授William Wulf和计算机科学领域学者Sally McKee发表了一篇经过深入研究的论文,题为“Hitting the memory wall: implications of the obvious(突破内存墙:显而易见的影响)”。如今,“内存墙”已成为一个陈词滥调,但它凸显了内存带宽对于AI硬件系统的关键性。

对于AI硬件内存子系统而言,具有1024位数据总线的HBM是现有可选方案中的最佳选择。JEDEC(固态技术协会)于2013年发布了HBM标准。HBM最初是针对图形处理单元(GPU)设计的。随着GPU在AI训练应用中变得日益普及,对于用于训练最先进(SOTA)的Transformer模型的内存子系统来说,HBM显然是不二之选。与DDR或GDDR相比,HBM的主要优势在于其更高的带宽、更低的功耗和DRAM尺寸。

在过去十年中,HBM2和HBM3标准相继发布,工作频率和DRAM堆叠高度/容量方面都有所改进。2013年发布的HBM标准规定带宽为1Gbps。HBM2的带宽为2.4Gbps,而HBM3则达到6.4Gbps。JEDEC标准仅规定了所需的最低带宽,对更高的带宽并无限制。由于大语言模型的规模呈爆炸式增长,AI硬件系统始终需要更高的性能。因此,HBM DRAM供应商始终在向生产更高性能产品的方向迈进。

为了将这些高速设备与JEDEC规定的基本速度等级区分开来,便使用了“HBM3E”这一术语。即符合HBM3标准但运行速度更高的HBM DRAM产品被标记为HBM3E产品,HBM3E也被称为第五代HBM。

HBM3E可提供超过1.2TB/s的带宽,堆叠层数最高可达12层,对应最高容量达36GB,当前三大原厂均已入局并在2024年上半年陆续出货,考虑到HBM需求的火爆程度,SK海力士还计划提前一年在2025年出货HBM4。

AI的内存子系统有两个组件:a)HBM DRAM堆栈;b)SoC上的HBM IP,为HBM DRAM堆栈提供接口。

需要注意的是,SoC上的HBM IP的运行速度必须达到或超过HBM DRAM的额定速度。对于SoC设计而言,其方案应始终是在芯片上采用性能最高的HBM IP,原因如下:

性能方面:由于内存带宽是AI硬件系统性能的限制因素,HBM子系统性能的每一点微小提升,都会对整个AI硬件系统的性能产生倍增效应。例如,采用近期推出的、带宽为9.6Gbps的HBM3E内存子系统的AI硬件系统,其性能将比目前正在生产的、速度等级最高8.0Gbps的HBM3E系统高出许多倍。

面向未来:典型的SoC设计周期为12至18个月,而SoC产品的生命周期可能在四到十年不等,具体取决于目标市场细分领域。因此,产品规划至少应该展望未来六年。内存系统设计应考虑从SoC设计开始后的六年后可用的最高速度HBM DRAM,并选择与之速度等级相匹配的HBM IP。

制造方面:性能更高的HBM IP能够提供额外的裕度,以适应制造工艺的差异。例如,如果你的计划是设计带宽为9.6Gbps的HBM内存系统,那么SoC上性能达到12.8Gbps(下一代设备的预期速度)的HBM IP,相比额定速度为9.6Gbps的HBM IP,提供更多的裕度。

可靠性方面:对于超大规模的AI云服务运营商来说,在AI加速卡所报告的故障原因中,HBM内存系统的可靠性故障位列前两位。随着时间的推移,数据中心的工作负载会降低HBM内存系统的性能。SoC上设计和运行速度为12.8Gbps的HBM IP,相比运行速度为9.6Gbps的HBM IP,能提供高得多的可靠性。

扩展内存带宽是一项艰巨的任务。HBM标准和产品已从1Gbps的HBM发展到10.4Gbps的HBM3E,后者是目前Cadence所支持的速度等级。过去十年间,由于晶圆代工、制造以及设计流程/技术的进步,AI硬件系统的内存带宽增长,主要是更高时钟速率的线性增长。HBM4标准已于2024年预先公布,最终版本预计将于2025年发布。HBM4有望具备比当前HBM3E高得多的性能。

显然,对于以“训练”为目标的AI硬件系统而言,HBM起着至关重要的作用。SoC设计师面临的挑战在于,要规划并提供性能最高的内存子系统,以满足当下以及未来几年即将推出的AI产品所需的数据传输速率。(校对/孙乐)

参考文章:https://semiengineering.com/ais-rapid-growth-the-crucial-role-of-high-bandwidth-memory/

责编: 李梅
来源:爱集微 #AI# #HBM#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...