工业和信息化部高新技术司近日公布2024年未来产业创新发展优秀典型案例申报成果,壁仞科技作为牵头单位,联合上海仪电、中兴通讯申报的 “软硬一体异构协同的国产GPU智算集群解决方案”,成功入选工信部未来产业创新发展“标志性产品”优秀典型案例。壁仞科技是“未来信息”方向“标志性产品”类别唯一芯片设计企业及上海市唯一上榜企业,充分体现了壁仞科技在人工智能芯片和智算集群领域的技术创新和产品实力。
创新标志性产品“超大规模新型智算中心”方向唯一上榜企业
为落实工业和信息化部等七部门《关于推动未来产业创新发展的实施意见》的部署要求,充分发挥标杆和样板的示范引领作用,加快推动标志性产品打造、高水平产业主体培育和应用场景建设,工业和信息化部高新技术司组织开展了2024年未来产业创新发展优秀典型案例征集工作。案例征集工作聚焦未来制造、未来信息、未来材料、未来能源、未来空间、未来健康等六大方向,面向全国征集遴选标志性产品、领军企业和典型应用场景三类典型案例。其中,标志性产品的定义为“代表未来产业发展方向,且已实现产业化,能切实体现前沿技术突破并具有良好应用前景的产品”。在十大创新标志性产品方向中,“超大规模新型智算中心”旨在加快突破GPU芯片、集群低时延互连网络、异构资源管理等技术,建设超大规模智算中心,满足大模型迭代训练和应用推理需求。壁仞科技自主创新研发的“软硬一体异构协同的国产GPU智算集群解决方案”成为该方向唯一上榜产品。
工信部发布的创新标志性产品十大方向
六项核心技术创新成果,突破大规模智算集群及异构算力孤岛难题
大模型参数从千亿扩展到万亿,训练资源从千卡需要扩展到万卡甚至十万卡的集群。DeepSeek引爆了大模型的落地应用,推理资源需求激增。但高端算力供应紧张、国产芯片百花齐放、智算中心扩容混建,形成大量异构算力孤岛,智算集群的资源利用效率和灵活性存在很大挑战。本案例基于壁仞科技国产高性能GPU打造了软硬一体、全栈优化、异构协同、自主可控的智算集群解决方案,实现智算集群资源的高效利用及异构协同,支持大模型快速发展。本案例坚持自主创新,整体方案覆盖高性能集群、大模型训练一体平台、加速库、基础框架、超大模型框架、算法/应用等六个层次,取得六项业界首创成果:
1)业界首创利用Chiplet架构实现大算力GPU;2)国内第一次实现GPU跨节点光互连技术验证并实现商用落地;3)业界首创大模型3D并行弹性训练,通过训推一体平台实现集群高效调度利用;4)业界首创三级异步Checkpoint,实现低开销、高可靠断点续训;5)业界首创异步Offload技术,突破大模型训练的显存瓶颈;6)业界首次支持4种及以上不同厂商不同型号的GPU混合训练同一个大模型,实现数千卡规模混训,突破大模型异构算力孤岛难题。
商业化落地加速,技术迭代持续领跑
本案例方案已经在多个大规模智算集群落地应用,通过应用落地和生态、标准建设持续打磨技术,技术持续升级满足客户新兴重要需求,形成良性循环。目前,壁仞科技壁砺™系列通用GPU产品已经在中国电信落地千卡集群并开展商业化落地应用,千卡集群、千亿参数模型训练线性加速比超过95%,多次运行loss零误差持续收敛,连续训练30天不中断,连续训练5天无故障,千卡集群千亿参数断点续训时间小于5分钟,满足大模型训练的性能、精度、稳定性要求。壁仞科技自主研发了BIRENLINK™高速互连技术,原生支持跨节点的多机高速光互连通信,业内首次完成技术可行性验证,之后联合上海仪电旗下上海智能算力科技有限公司设计并建设了首批国产大规模光互连集群,实现了国产光互连集群的技术突破。为解决大模型异构算力孤岛难题,壁仞科技自主研发了异构GPU协同训练方案HGCT,业界首次支持四种异构GPU混合训练同一个大模型,完成数千卡混训落地,实现了异构算力的有效聚合,将逐步实现万卡异构集群。基于HGCT方案,壁仞已联合中国移动发布“芯合”异构混合并行训练系统,联合中国电信、中兴通讯等发布“智算异构四芯混训解决方案”,牵头推动智算集群异构混训标准建设工作,实现技术创新、落地应用、标准制定的有机结合。
跻身新质生产力标杆,共建开放智算生态
凭借技术创新与商用落地能力,壁仞科技的超大规模智算集群解决方案近期荣登「2024新质生产力产业实践“人工智能”示范案例」TOP5。未来,壁仞科技将携手合作伙伴,以基础软件栈为核心,构建开放融合的智算生态,推动国产算力从“可用”向“好用”跃迁,支撑更大参数规模模型、更大规模异构集群及多业务场景融合,为中国算力强国战略提供坚实底座。
评论
文明上网理性发言,请遵守新闻评论服务协议
登录参与评论
0/1000