昆仑芯科技宣布成功点亮昆仑芯P800万卡集群,并计划进一步点亮3万卡集群。这一突破克服了硬件扩展性的限制,包括卡间互联的拓扑限制,避免了通信带宽成为瓶颈。
昆仑芯科技围绕芯片及集群功耗提出解决方案。据了解,基于万卡规模的常规方案功耗可达十兆瓦或更高,昆仑芯科技采用的散热方案解决了万卡集群的能效与散热问题。
此外,昆仑芯科技也对模型的分布式训练进行了优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%。
在稳定性方面,新点亮的集群提供了容错与稳定性机制,避免了由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降的问题,保障了有效训练率达到98%。
昆仑芯科技还针对机间通信带宽需求,建设了超大规模HPN高性能网络,并优化了拓扑结构,降低了通信瓶颈,使带宽有效性达到90%以上。