算力时代新支点 DPU再造价值链

作者：李映 2024-04-03

来源：爱集微 #DPU# #算力# #DPU#

3.8w

裹挟于AI大模型引起引发GPU热的宏大叙事中，DPU好像褪却了往日的光环。但其实，随着大模型作为一种新型基础设施逐渐普及，AI将赋能千行百业，算力需求爆发性增长，GPU的火热也在帮衬DPU，可谓处在同一战壕的“兄弟连”。

以英伟达H100为例，8颗GPU需要8个网络适配器和2颗BlueField3，相当于10个DPU。在国内市场有数据显示，未来几年云与数据中心领域国内服务器出货量每年将维持在500万台左右，其中DPU渗透率在10%左右，单台服务器可以配置一块到多块DPU板卡，预计每年DPU需求量将在100万片左右。

与算力需求与日俱增的是从智能网卡“进阶”而来的DPU，还需全面解锁卸载CPU算力的新技能，在架构、软件和应用层面打持久战。

DPU成AI大模型时代新支点

自ChatGPT横空出世掀起国内百模大战以来，拉动算力需求出现爆发式增长。据IDC预计，2021-2026年期间，中国智能算力规模年复合增长率达52.3%，预计到2026年智能算力规模将进入每秒十万亿亿次浮点计算(ZFLOPS)级别，达到1271.4 EFLOPS。

而且，在生成式AI风起云涌之际，算力不仅成为新质生产力关键，也成为大国博弈的核心竞争力。加之我国东数西算工程的推进，算力网络、算网融合等创新技术不断衍生，对异构算力芯片也提出了新的挑战。

中科驭数高级副总裁张宇认为，算力核心来源将是三U即GPU、CPU、DPU一体，CPU实现通用算力，GPU释放智能算力，DPU支撑基础I/O算力，作为CPU的卸载引擎，接管网络虚拟化、硬件资源池化等基础设施层服务，释放CPU的算力。尤其是在大模型训练时，多机集群的并行计算需要实时、低时延的数据同步，DPU的作用不可或缺。

可以说承载网络、存储、安全和管理控制等功能的DPU，在如日中天的AI大模型时代已成为算力集群的新支点。

业内人士梁宇（化名）也表示，DPU的重要性在于一方面，随着AI大模型的普及，对于算力需求已经达到了2个月就翻一倍的速度，大模型训练参数在指数级增长，对于计算能力、内存带宽、网络带宽都带来极大压力，DPU可支持100G+高带宽和大规模组网，提供高效的存储处理能力，通过支持RDMA（远程直接内存访问）技术减少延时和抖动，显著提高GPU的有效计算，这对于AI大模型的高效训练至关重要。另一方面，DPU有望极大降低数据中心成本，单个高端DPU可提供相当于125个CPU内核所提供的数据中心服务，有望节约大量支出。

DPU的产业价值已成共识，尤其是最近加快建设算力基础设施的各种重磅政策和方案接连出台，全面利好DPU产业发展。2023年10月，工信部、中央网信办、国务院国资委等六部门2023年10月联合印发《算力基础设施高质量发展行动计划》，强调DPU在提升算力效率、优化算力质量、促进绿色低碳算力发展等方面的关键作用。这一政策的出台，标志着DPU在国家战略中的地位得到了正式确认。

国内GPU厂商在加速攻坚之际，国内DPU赛道也站满了各路玩家，如阿里云、腾讯、字节跳动等互联网巨头，以及一些DPU创业公司中科驭数、星云智联、云脉芯联、云豹、大禹智芯、益思芯、芯启源等均在各展神通。

持续应对多重挑战

DPU的重要性已不容忽视，但为满足AI大模型对高性能网络和数据处理能力的不断增长的需求，DPU还需要着力解决相应的挑战。

总体而言，DPU面临的挑战还集中于性能、生态以及应用等方面。

梁宇指出，DPU在性能层面需要持续优化。英伟达提出的网络计算概念非常领先，网络不仅仅在数据中心做数据的传输，还可作为数据中心的计算单元之一，涉及数据在进入计算节点时已经进行了预处理，从而显著提高计算效率。然而，要实现这一概念，DPU需要具备强大的算力以及分配能力，目前英伟达还在研究中，国内企业也在积极探索。

在技术层面，DPU正朝着SoC的方向发展，国内外厂商都在积极研发和部署DPU SoC。

“但SoC功能要求复杂，成本较高，需要包含了CPU等核心组件，对架构、工艺等均提出了更高要求。有的企业采取板卡形式，虽然性能上可能不如集成度更高的SoC，但这一设计可降低研发成本和难度。”梁宇分析说。

此外，DPU是软硬件结合的产物，竞争力不仅仅取决于硬件性能，还涉及到软件的适配和优化，需要DPU厂商研发软件栈与国产CPU、GPU厂商深度合作进行适配，以实现软硬件的协同优化。

面向应用，DPU不仅在AI大模型训练中发挥作用，还将在云计算、裸金属、容器云、低时延等多种场景中提供支持。但在各类应用中，还需因地制宜。梁宇举例说，尽管云厂商对搭配DPU的服务器有较高的需求，因为这一配置可提供更多的资源和更高的安全性，但云厂商在销售裸金属服务器时却很难盈利，这在某种程度上限制了需求的增长。

“DPU还尚未达到爆发点，需要提供更多价值和适用场景以证明其价值，在不同的应用中针对性的解决挑战将有助力促进DPU加速应用。”梁宇总结道。

理性应用稳健发展

尽管面临诸多挑战，但作为新型算力基础设施的一股新生力量，DPU在多元化场景的应用也在深入。可以说，国内DPU正处于行业应用深化和生态系统构建的关键时期。

特别是随着DPU在金融、电信、云计算等多个行业得到广泛应用，与上下游企业共同推动行业标准的制定和生态系统的完善也成为“连续剧”，持续推动DPU的进化和发展。

经过近些年的深耕，尽管国内DPU相比国外巨头在某些性能指标上还存在差距，但通过系统优化和软硬件协同，已经在一些领域实现了性能超越，并且在众多应用中得到了有效检验。

据悉，云脉芯联DPU除具备I/O虚拟化、网络、存储卸载等核心功能之外，还可支持RDMA满足高性能计算、人工智能、云存储等场景，支持RDMA功能的云脉芯联DPU/智能网卡产品已在客户和合作伙伴解决方案中落地实施。

而云豹自主研发的DPU采用创新的层级化可编程设计，融合国密加速引擎及自主研发的RISC-V指令集，确保核心应用的安全可靠、自主可控及灵活高效。目前公司已与头部云计算大厂、电信运营商和央企等开展深度合作，共同推进DPU产业落地。

中科驭数在最近也集中展现了其在低时延、云原生及智算中心三大关键场景下的技术成果与五大核心DPU解决方案。张宇介绍，DPU已在某头部云计算厂商的云数据中心中落地。基于DPU的方案可以大大缩短裸金属服务的交付时间，实现了虚拟网络功能的全面卸载，也为存算分离相关的多种存储技术提供了统一的接口。

针对云原生业务的复杂性和高时效性需求，中科驭数基于DPU的极速服务网格方案化繁为简，有效降低了系统时延。据介绍，基于DPU的服务网格方案已成功应用于国内某知名证券机构，在七层服务治理下，时延降至100-130微秒；在四层流量下，仅需40微秒。

通过“深挖洞、广积粮”策略，国内DPU企业不仅在软硬件协同、架构层面快速迭代，还带动算力基础设施计算体系结构的变化，加强推进在低时延、云原生等关键场景的落地，也将持续在算力时代谱写不凡的篇章。