(文/林美炳)2023年6月2日,以“聚焦应用,集智创芯”为主题的集微通用芯片行业应用峰会在厦门举行。峰会上,奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东发表了《大模型驱动的全新算力形态,基于Chiplet的超大规模异构计算平台》的主题演讲,本篇文章回顾撷取自以上活动。
以下为演讲内容实录:
大模型的爆发,带来了巨量的算力需求,也给芯片带来了极大的挑战。因能有效提升算力和互联密度,异构计算和Chiplet两大技术成为备受关注的方向。那么,要如何利用Chiplet 构建一个超大规模的异构计算平台?
大模型驱动高性能计算进化加速
挑战1:硬件和系统规模持续提升
如今,摩尔定律已经无法满足芯片面积和芯片级联提升的需求,进而引发了硬件和系统的规模过载。业界迫切需要构建更大规模的整合计算系统,以应对持续增长的算力需求。
挑战2:算力应用场景多元化
随着芯片工艺技术的不断演进,算力场景应用的增加,针对不同应用场景升级迭代芯片,将面临巨大的资金挑战。同时,通用处理器(CPU)已无法满足芯片对效率的需求,地位逐渐被GPU取代。异构计算和Chiplet技术,可以把CPU和GPU二者拼搭成一整个芯片,更好的实现芯片的通用性与性能的平衡。
挑战3:互联效率瓶颈
随着计算机系统的规模扩大,存储、计算规模也越发庞大,互联效率成为芯片设计的重大的瓶颈。急需基于分布式、以存储为中心的计算架构解决互联效率的问题。
芯片巨头比拼超大规模异构计算平台
如今,全球主要芯片巨头如AMD、Intel、Nvidia都在构建超大规模异构计算平台。以NVIDIA为例,其最新一代Hopper H100针对大型模型提供9倍AI训练速度。
祝俊东指出,Nvidia能实现如此高幅度的性能提升,关键在于系统级的互联。从BlueField-3到Spectrum-4,Nvidia把构建了一个从底层到顶层的全链路互联网络架构体系,使互联性能提升了数十倍。在此基础上,Nvidia把GPGPU、异构计算、超高速互联网络组合在一起,创建了一个ETOPS级的超大规模计算集群:DGX GH200。
AMD、英特尔也都在进行超大规模异构计算平台的研发。2022年,英特尔发布了3D GPGPU Intel Ponte Vecchio,通过Intel的X link网络把47个不同的芯粒组合在一起,构建了一个高性能的集群。
AMD作为Chiplet路线的开拓者,一直将异构、Chiplet、互联网络作为其主要研发路线。AMD将6颗GPU和3颗CPU拼在一颗芯片上形成了其3D APU MI300,并将Infinity Fabric互联架构升级至第三代,以实现全方位的多处理器性能和可扩展性的优化。
汽车领域芯片架构变化
自动驾驶领域,芯片巨头也纷纷布局大算力计算平台。英伟达在年初发布了NVIDIA Thor超级芯片计划,作为一颗多域合一的芯片,它集合了多种功能,拥有最高达2000T算力。
最近,在Nvidia与MediaTek的车用芯片共同开发计划中,联发科将通过Chiplet设计方式将英伟达的GPU集成在下一代Snapdragon产品中,通过双SoC与双NPU的组合打造更强的大算力芯片,并通过不同产品组适配高中低端应用和不同场景。
构建大规模异构计算平台需五大关键技术
祝俊东认为,要构建超大规模异构计算平台,至少需要五大软硬件关键技术。
第一:适用于超大规模异构的计算架构,以实现软、硬件的结合,以及单个计算单元性能的最大化;
第二:统一的编程模型以及协议的库堆栈,以提高软件的应用性;
第三:从CPU到GPU、NPU,不同的类型计算单元的的芯粒支持;
第四:超大规模的传输网络以及互联网络,把不同的计算单元、存储、连接等单元高效地连接在一起;
第五:先进封装技术,让不同的芯粒用接近SoC的互联密度连接,像一颗芯片一样工作。
其中,最后三大技术都与Chiplet相关。如今,Chiplet已成为构建超大规模异构计算平台的关键因素,也是行业巨头竞逐的方向。
系统级视角看Chiplet:
祝俊东认为,从系统级的视角来看,Chiplet是一种新的系统级架构与dielet组合的方式。基于 SoC 架构进行拆分重组,将主要功能单元 (IP) 转变成独立芯粒 (Dielet),并通过先进封装和 Die-to-Die接口,将其连接到 Chiplet 互联网络 (OCI) 中,组成系统级宏芯片 (MSoC)。这也是全链路的chiplet的重组以及拆分的过程。
Chiplet的核心挑战:高效互联
在芯片拆分后,需要高效的互联。Chiplet互联涉及多个层次:
Physical:先进封装是Chiplet的物理支撑,客户需要根据产品需求,选择substrate、2.5D、3D等不同形式;
Electrical:为高效连接信号,需要Die-to-Die interface和高带宽、低延时、低功耗以及统一的协议;
Interconnection:在die-to-die互联基础上,大量节点需要通过一套统一的连接网络以及对应的算法进行连接;
Network:把不同的芯粒通过更复杂的网络结构高速互联起来,实现不同节点间的全连通。
祝俊东表示,以上五个层次构成了一个完整的Chiplet互联体系,互联对于Chiplet至关重要,也是Chiplet所面临的核心挑战所在。他所在的公司奇异摩尔,作为国内第一批专注于2.5D和3D Chiplet研发的企业,就此提出了一整套完整的解决方案,以解决超大规模互联问题。
奇异摩尔:推出基于Chiplet 的大规模异构计算平台
奇异摩尔是一家基于Chiplet架构,为客户提供核心通用互联芯粒及系统级解决方案的服务商,以数据存储和传输为核心,通过自研的Kiwi Fabric互联体系高效连接不同类型的功能单元,目标是成为超大规模分布式异构计算平台的基石。
奇异摩尔互联方案两大核心:Die-to-Die接口和互联芯粒
据祝俊东介绍,奇异摩尔的产品线分为两大部分,其一是2.5D、3D芯粒系列,其二是Die-to-Die IP系列。奇异摩尔基于UCIe标准,提供覆盖各种不同类型、综合能力强、具高带宽、低延时、低功耗的Die2Die IP,支持 2.x/2.5/3D 等多种封装形态。
2.5D IO Die:在Die-to-Die的基础上,IO Die作为奇异摩尔的核心自研产品,是一个高速数据存储及调度核心,集成了Die-to-Die接口和其他多种高速接口,能把各个节点通过Kiwi Fabric网络互连起来,再通过一套自定义算法来实现数据流、信息流的分发调度。
3D Base Die:在IO Die的基础上,奇异摩尔研发了全球首款的通用的3D Base Die。通过芯粒3D堆叠,能进一步提升芯片算力密度。同时,通过集成die-to-die 3D接口,Cache、IVR等模块以实现更高效的垂直互联,最大程度的减少存储本身带来的延迟和功耗。
祝俊东介绍,奇异摩尔为客户提供基于IO Die和Base Die的完整解决方案,基于核心互联芯粒,客户只需要设计少量功能单元,即可搭建产品系列平台,能极大地降低研发及量产的成本。奇异摩尔的解决方案覆盖数据中心、自动驾驶、边缘AI、5G、6G移动通信等需要大算力芯片的领域。客户可以最高提升芯片的系统性能至1.5倍,并实现研发成本(80%)和量产时间(60%)的下降。
演讲最后,祝俊东表示,奇异摩尔作为一家创新的Chiplet产品及解决方案公司,其愿景是“为了更简单的计算“贡献力量,并呼吁各位客户及合作伙伴共同发力,构建未来智能计算的新范式。