• 行业咨询
  • 品牌营销
  • 集微资讯
  • 知识产权
  • 集微职场
  • 集微投融资
  • 集微企业库
搜索
爱集微APP下载

扫码下载APP

爱集微APP扫码下载
集微logo
资讯集微报告舆情JiweiGPT企业洞察
2025第九届集微半导体大会集微视频
登录登录
bg_img
search_logo
大家都在搜

支持原生FP8和PyTorch 2.5.0,摩尔线程发布Torch-MUSA v2.0.0

作者: 爱集微 05-12 16:28
相关舆情 AI解读 生成海报
来源:摩尔线程 #摩尔线程# #MUSA# #GPU#
1w

近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构,支持原生FP8数据类型,支持PyTorch 2.5.0,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。

FP8原生支持,国产GPU的技术突破

作为本次升级的核心亮点,Torch-MUSA v2.0.0率先在国产GPU上实现了对FP8数据类型的完整支持。FP8是当前AI计算的一种前沿低精度格式,在支持原生FP8的GPU上,大语言模型(LLM)训练采用FP8混合精度可大幅提高GPU算力,显著降低显存占用。摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算,这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了坚实的基础。依托这一底层架构优势,Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能,显著提升大语言模型训练和推理的效率。

三大关键优化,提升AI计算效率

Torch-MUSA v2.0.0在MUSA计算平台引入多项创新功能,进一步提升深度学习任务的执行效率:

▼ 新增虚拟内存管理支持:

MUSA虚拟内存管理技术能够有效缓解GPU内存碎片化问题,降低模型训练过程中的峰值内存占用,特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。

▼ 新增MUSA Graph支持:

MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。

▼ torch.compile增加Triton后端支持:

为torch.compile提供了Triton-MUSA后端支持,开发者可以直接使用PyTorch原生接口,获得更高效的性能表现。

支持PyTorch 2.5.0,生态兼容性更强

Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基础上,新增了对PyTorch 2.5.0的支持,使开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上,无缝运行新版本的PyTorch,享受更高效的AI计算体验。

Torch-MUSA已完全开源,开发者可通过访问GitHub获取源代码。摩尔线程鼓励开发者积极参与该项目的开发与改进,通过提交问题报告(issue)或代码修改申请(pull request)等方式,共同推动Torch-MUSA以及MUSA软件生态的持续进步与创新。

▼ Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

▼ 功能特性:

在Torch-MUSA中,用户只需指定torch.device("musa"),即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码。Torch-MUSA完全兼容PyTorch的自动微分和动态图机制,支持多种常用的神经网络模块及优化算法,并加速了关键深度学习算子的计算。此外,Torch-MUSA还支持多种PyTorch特性,包括DDP、JIT、FSDP、Profiler、Extension等。

▼ 版本迭代:

MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。

v1.1.0:初次发布,支持PyTorch 2.0,提供基础张量操作和常见神经网络层的MUSA加速。

v1.2.0:进一步扩展算子支持,支持了完整功能的Profiler、MUSA Extension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。

v1.3.0:支持PyTorch 2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。

v2.0.0:在MUSA Compute Capability 3.1计算架构上,原生支持FP8数据类型,支持PyTorch 2.5.0,新增MUSA虚拟内存管理技术优化大模型训练内存效率,通过集成Triton-MUSA后端显著提升torch.compile编译效率,支持MUSA Graph技术。

▼ 未来计划:

Torch-MUSA将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。摩尔线程期待与广大开发者和研究人员共同完善Torch-MUSA的功能,持续优化性能,为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

责编: 爱集微
来源:摩尔线程 #摩尔线程# #MUSA# #GPU#
分享至:
THE END
相关推荐
  • 韩国政府将租赁英伟达Blackwell GPU,每家选定公司获1000块以上

  • 韩国政府计划五年投资超16万亿韩元建设AI基础设施

  • 摩尔线程 “存储空间管理方法、装置、设备及存储介质”专利获授权

  • 英伟达首款GPU出自法国,马克龙盼重振昔日芯片雄风

  • 摩尔线程亮相2025北京智源大会,携手智源研究院共推AI创新

  • 机构:一季度英伟达显卡市场份额达92%,英特尔降至0%

评论

文明上网理性发言,请遵守新闻评论服务协议

登录参与评论

0/1000

提交内容
    没有更多评论
爱集微

微信:

邮箱:laoyaoba@gmail.com


11.2w文章总数
12012.5w总浏览量
最近发布
  • 「全球能源循环计划」愿景发布,电池产业又要变天了?

    7小时前

  • 从“高配”到“普惠”,黑芝麻智能携手Nullmax打造辅助驾驶主流量产方案

    10小时前

  • 报名开始! 1000+展商齐聚半导体设备年会, 九月无锡见

    11小时前

  • 电子科大科技园(天府园)瞪羚集孵化器启航 打造西部瞪羚企业跃升新引擎

    11小时前

  • 半导体龙头亮剑!闻泰科技业绩说明会展现一季度强劲业绩与战略蓝图

    14小时前

最新资讯
  • 「全球能源循环计划」愿景发布,电池产业又要变天了?

    7小时前

  • 小米YU7开售3分钟,大定破20万台

    8小时前

  • 小米YU7正式发布 25.35万起

    9小时前

  • 算力互联网试验网将扩大试验范围

    9小时前

  • 安克创新:电芯供应商私自更换材料的传闻属实 目前已终止合作

    9小时前

  • 安克与宁德战略合作:首批采购4500万片电芯

    9小时前

关闭
加载

PDF 加载中...

集微logo
网站首页 版权声明 集微招聘 联系我们 网站地图 关于我们 商务合作 rss订阅

联系电话:

0592-6892326

新闻投稿:

laoyaoba@gmail.com

商务合作:

chenhao@ijiwei.com

问题反馈:

1574400753 (QQ)

集微官方微信

官方微信

集微官方微博

官方微博

集微app

APP下载

Copyright 2007-2023©IJiWei.com™Inc.All rights reserved | 闽ICP备17032949号

闽公网安备 35020502000344号