• 行业咨询
  • 品牌营销
  • 集微资讯
  • 知识产权
  • 集微职场
  • 集微投融资
  • 集微企业库
搜索
爱集微APP下载

扫码下载APP

爱集微APP扫码下载
集微logo
资讯集微报告舆情JiweiGPT企业洞察
2025第九届集微半导体大会集微视频
登录登录
bg_img
search_logo
大家都在搜

上海交通大学与无问芯穹联合团队获ASP-DAC 25最佳论文奖

作者: 集小微 02-25 23:08
相关舆情 AI解读 生成海报
来源:上海交通大学 #无问芯穹# #上海交大# #AI加速#
1.2w

近日,集成电路设计自动化领域的国际传统顶级会议之一的ASP-DAC(Asia and South Pacific Design Automation Conference, 亚洲及南太平洋设计自动化会议)在日本东京落下帷幕。上海交通大学人工智能学院戴国浩副教授带领团队完成的论文《ViDA: Video Diffusion Transformer Acceleration with Differential Approximation and Adaptive Dataflow》从约600篇投稿中脱颖而出,获得前端最佳论文奖。该论文提出的AI视频生成模型的稀疏化加速器,首次实现了通过差分近似和自适应数据流解决VDiT生成速度缓慢瓶颈,推理速度相比A100提升高达16.44倍。

研究背景

近年来,视频生成模型在影视制作、虚拟现实和内容创作等领域展现了重要价值,其潜力吸引了越来越多的关注。随着生成模型的逐步成熟,诸如自动视频生成、内容增强以及特效制作等任务的效率和质量均有显著提升。

然而,这类模型通常需要处理高维度的时空数据,计算复杂度高,尤其是在高分辨率和长时序场景中,对计算资源的消耗极为巨大。因此,如何有效地加速视频生成模型的推理过程,不仅对模型性能的优化提出了更高的要求,也成为推动生成技术落地的重要瓶颈问题,给内容创作、虚拟现实等产业带来严峻挑战。在这一背景下,针对特定生成任务设计高效的计算架构和优化算法成为当前的研究重点。以OpenAI的Sora为代表,视频扩散Transformer(VDiT)模型的最新进展极大地推动了视频生成领域的发展。然而,VDiT推理过程中仍然存在帧间计算冗余和算子计算强度差异较大的问题。现有基于有限帧间相似性的计算方法以及静态硬件架构和数据流设计,无法有效解决VDiT推理速度缓慢的瓶颈。

研究成果

为应对上述挑战,团队结合帧间预测的差分计算与帧内稀疏特性的分析,提出了视频生成模型的软硬一体加速器ViDA,创造性地通过差分近似方法和自适应数据流架构,利用稀疏性实现软硬件协同优化,从而大幅提升了VDiT的推理性能。

图1:从视频处理到视频生成加速

ViDA的设计深受传统视频处理中基于相似性去除帧间冗余方法的启发。如图1所示,在传统视频处理中,帧间的高相似性被充分利用,通过对相邻帧进行分块比较,将当前帧的内容表示为参考帧的基础上叠加变化信息,从而有效去除帧间的冗余。这种方法不仅减少了存储和传输中重复数据的占用,还能通过优化预测和补偿机制,大幅提高视频编码的效率。这种基于相似性的优化策略为传统视频处理提供了显著的存储与传输优势,同时也为生成模型的推理优化提供了重要参考。

基于这一理念,ViDA结合视频相似性预测的差分计算,提出了一套面向视频生成模型的优化方法。通过深度挖掘生成过程中的帧间激活相似性,ViDA有效减少了计算冗余,为推理效率和硬件性能的全面提升奠定了基础。

  • 首先,在算法层面,本文提出了差分近似计算方法,成功减少了Act-Act算子51.67%的计算量;

  • 其次,在硬件层面,设计了列聚集处理单元,利用差分计算中的列稀疏模式,使面积效率提升了1.47倍;

  • 最后,在数据流层面,构建了计算强度自适应数据流架构,将计算效率提升了1.76倍。

图2:ViDA 与 CPU、GPU及SOTA加速器在三个 VDiT模型上的加速和面积效率比较

图2展示了ViDA与不同基线的性能表现。与A100 GPU相比,ViDA实现了16.44倍的性能提升;相较于ViTCoD、InterArch和CMC,加速比分别提升了2.48倍、2.39倍和2.18倍。这一显著的性能提升主要得益于通过差分计算来同时计算Act-W和Act-Act算子,同时通过强度自适应数据流设计满足了长视频生成场景下对计算和存储资源的复杂需求。

此外,ViDA在面积效率方面的表现同样突出,其相较于A100 GPU提高了18.39倍;相较于ViTCoD、InterArch和CMC,几何平均效率分别提升了2.39倍、2.43倍和2.35倍。这主要得益于列聚集处理单元在列稠密模式下对稠密处理单元和稀疏处理单元的高效利用,以及精细化的任务分配策略在相同硬件面积下实现了更优的性能表现。

ViDA在多种主流VDiT模型上的实验结果表明,与NVIDIA A100 GPU和现有最先进加速器相比,它分别实现了平均16.44倍/2.18倍的加速比和18.39倍/2.35倍的面积效率提升,可有效降低视频生成模型对计算资源的消耗,加速视频生成模型的推理过程,推动视频生成技术更好、更快、更大范围产业化落地。

会议信息

亚太地区是全球硅芯片设计和制造最活跃的地区,而ASP-DAC则是亚太地区最大的超大规模集成电路(VLSI)和电子设计自动化(EDA)领域会议,与设计自动化会议(DAC)、国际计算机辅助设计会议(ICCAD会议)、欧洲设计自动化与测试会议(DATE)并称为电子设计自动化领域(EDA)的四大顶级会议。

责编: 集小微
来源:上海交通大学 #无问芯穹# #上海交大# #AI加速#
分享至:
THE END
相关推荐
  • 上海交大朱晨、孙浩合作发文:基于官能团迁移自由基环化聚合的环烯烃聚合物合成及其在无负极锂电池中的高性能应用

  • 上海交大郭益平课题组在面向多向力感知的压电复合材料研究中取得新进展

  • 电子信息与电气工程学院“拆分”?上海交大成立四个新学院

  • 获7家国产芯片支持,无问芯穹异构云打通DeepSeek-R1多芯片适配优化

  • 第三代昆仑芯万卡集群点亮,全版本适配DeepSeek训练推理

  • 上海交通大学团队PRL发文:利用Clifford线路增强密度矩阵重整化群方法

评论

文明上网理性发言,请遵守新闻评论服务协议

登录参与评论

0/1000

提交内容
    没有更多评论
集小微

微信:

邮箱:


4072文章总数
6096.3w总浏览量
最近发布
  • 又一机器人企业落地上海!

    15小时前

  • 马斯克回归7x24工作制 特斯拉关键技术推出在即

    18小时前

  • 多家科技公司推出突破性AI新模型

    18小时前

  • 工信部:我国工业互联网核心产业规模超1.5万亿

    18小时前

  • 四部门部署开展“百场万企”融通对接活动,加强产业链对接

    24小时前

最新资讯
  • 传群创获SpaceX面板级封装订单

    12分钟前

  • 美国芯片四巨头呼吁特朗普政府免除半导体关税

    3小时前

  • 华尔街:特朗普美制iPhone愿景是童话故事

    3小时前

  • 泰凌微电子闪耀2025蓝牙亚洲大会 以创新技术引领蓝牙生态未来发展

    3小时前

  • 【头条】等救不如自救:半导体创业者的“断臂”与“造血”

    3小时前

  • 【融资】八部门联合发文,支持小微企业融资

    3小时前

关闭
加载

PDF 加载中...

集微logo
网站首页 版权声明 集微招聘 联系我们 网站地图 关于我们 商务合作 rss订阅

联系电话:

0592-6892326

新闻投稿:

laoyaoba@gmail.com

商务合作:

chenhao@ijiwei.com

问题反馈:

1574400753 (QQ)

集微官方微信

官方微信

集微官方微博

官方微博

集微app

APP下载

Copyright 2007-2023©IJiWei.com™Inc.All rights reserved | 闽ICP备17032949号

闽公网安备 35020502000344号