甲骨文(Oracle)公司推出了新型集群,将通过甲骨文云基础设施(OCI)用于AI训练。这一最强大的集群将基于英伟达即将推出的Blackwell GPU,总AI性能高达2.4ZettaFLOPS,比埃隆·马斯克最近公布的AI集群更加强大。
甲骨文的新超级计算机集群可配置英伟达Hopper或Blackwell GPU,用于AI和HPC(高性能计算),以及不同的网络设备,包括带有ConnectX-7 NIC和ConnectX-8 SuperNIC的超低延迟RoCEv2或基于英伟达Quantum-2 InfiniBand的网络,还可根据性能需求选择HPC存储:
配备H100 GPU的OCI超级集群最多可支持16384个GPU,提供65 FP8/INT8 exaFLOPS峰值性能和13Pb/s的综合网络吞吐量;
配备H200 GPU的OCI超级集群将于今年晚些时候推出,可扩展至65536个GPU,提供高达260 FP8/INT8 exaFLOPS和52Pb/s的网络吞吐量;
配备Blackwell B200 GPU的OCI超级集群将扩展至131072个GPU,提供高达2.4 FP8/INT8 zettaFLOPS的峰值性能。
OCI即将推出的超级计算集群远远超过当前领先系统的能力。据甲骨文公司称,基于B200的顶级OCI超级集群的GPU数量是Frontier超级计算机(使用37888个AMD Instinct MI250X GPU)的三倍多,是其他超级集群的六倍多。
即将推出的OCI超级集群将使用英伟达的GB200 NVL72液冷机柜,72个GPU在单个NVLink域中以129.6TB/s的总带宽相互通信。甲骨文表示,英伟达的Blackwell GPU将于2025年上半年上市(因为今年Blackwell的可用性有限),但目前还不清楚OCI何时会提供满载Blackwell的集群。(校对/张杰)