上海交通大学与无问芯穹联合团队获ASP-DAC’25最佳论文奖

来源:上海交通大学 #ASP-DAC# #交大AI# #VDiT#
1116

近日,集成电路设计自动化领域的国际传统顶级会议之一的ASP-DAC(Asia and South Pacific Design Automation Conference, 亚洲及南太平洋设计自动化会议)在日本东京落下帷幕。上海交通大学人工智能学院戴国浩副教授带领团队完成的论文《ViDA: Video Diffusion Transformer Acceleration with Differential Approximation and Adaptive Dataflow》从约600篇投稿中脱颖而出,获得前端最佳论文奖。该论文提出的AI视频生成模型的稀疏化加速器,首次实现了通过差分近似和自适应数据流解决VDiT生成速度缓慢瓶颈,推理速度相比A100提升高达16.44倍。

研究背景

近年来,视频生成模型在影视制作、虚拟现实和内容创作等领域展现了重要价值,其潜力吸引了越来越多的关注。随着生成模型的逐步成熟,诸如自动视频生成、内容增强以及特效制作等任务的效率和质量均有显著提升。

然而,这类模型通常需要处理高维度的时空数据,计算复杂度高,尤其是在高分辨率和长时序场景中,对计算资源的消耗极为巨大。因此,如何有效地加速视频生成模型的推理过程,不仅对模型性能的优化提出了更高的要求,也成为推动生成技术落地的重要瓶颈问题,给内容创作、虚拟现实等产业带来严峻挑战。在这一背景下,针对特定生成任务设计高效的计算架构和优化算法成为当前的研究重点。以OpenAI的Sora为代表,视频扩散Transformer(VDiT)模型的最新进展极大地推动了视频生成领域的发展。然而,VDiT推理过程中仍然存在帧间计算冗余和算子计算强度差异较大的问题。现有基于有限帧间相似性的计算方法以及静态硬件架构和数据流设计,无法有效解决VDiT推理速度缓慢的瓶颈。

研究成果

为应对上述挑战,团队结合帧间预测的差分计算与帧内稀疏特性的分析,提出了视频生成模型的软硬一体加速器ViDA,创造性地通过差分近似方法和自适应数据流架构,利用稀疏性实现软硬件协同优化,从而大幅提升了VDiT的推理性能。

图1:从视频处理到视频生成加速

ViDA的设计深受传统视频处理中基于相似性去除帧间冗余方法的启发。如图1所示,在传统视频处理中,帧间的高相似性被充分利用,通过对相邻帧进行分块比较,将当前帧的内容表示为参考帧的基础上叠加变化信息,从而有效去除帧间的冗余。这种方法不仅减少了存储和传输中重复数据的占用,还能通过优化预测和补偿机制,大幅提高视频编码的效率。这种基于相似性的优化策略为传统视频处理提供了显著的存储与传输优势,同时也为生成模型的推理优化提供了重要参考。

基于这一理念,ViDA结合视频相似性预测的差分计算,提出了一套面向视频生成模型的优化方法。通过深度挖掘生成过程中的帧间激活相似性,ViDA有效减少了计算冗余,为推理效率和硬件性能的全面提升奠定了基础。

  • 首先,在算法层面,本文提出了差分近似计算方法,成功减少了Act-Act算子51.67%的计算量;

  • 其次,在硬件层面,设计了列聚集处理单元,利用差分计算中的列稀疏模式,使面积效率提升了1.47倍;

  • 最后,在数据流层面,构建了计算强度自适应数据流架构,将计算效率提升了1.76倍。

图2:ViDA 与 CPU、GPU及SOTA加速器在三个 VDiT模型上的加速和面积效率比较

图2展示了ViDA与不同基线的性能表现。与A100 GPU相比,ViDA实现了16.44倍的性能提升;相较于ViTCoD、InterArch和CMC,加速比分别提升了2.48倍、2.39倍和2.18倍。这一显著的性能提升主要得益于通过差分计算来同时计算Act-W和Act-Act算子,同时通过强度自适应数据流设计满足了长视频生成场景下对计算和存储资源的复杂需求。

此外,ViDA在面积效率方面的表现同样突出,其相较于A100 GPU提高了18.39倍;相较于ViTCoD、InterArch和CMC,几何平均效率分别提升了2.39倍、2.43倍和2.35倍。这主要得益于列聚集处理单元在列稠密模式下对稠密处理单元和稀疏处理单元的高效利用,以及精细化的任务分配策略在相同硬件面积下实现了更优的性能表现。

ViDA在多种主流VDiT模型上的实验结果表明,与NVIDIA A100 GPU和现有最先进加速器相比,它分别实现了平均16.44倍/2.18倍的加速比和18.39倍/2.35倍的面积效率提升,可有效降低视频生成模型对计算资源的消耗,加速视频生成模型的推理过程,推动视频生成技术更好、更快、更大范围产业化落地。

会议信息

亚太地区是全球硅芯片设计和制造最活跃的地区,而ASP-DAC则是亚太地区最大的超大规模集成电路(VLSI)和电子设计自动化(EDA)领域会议,与设计自动化会议(DAC)、国际计算机辅助设计会议(ICCAD会议)、欧洲设计自动化与测试会议(DATE)并称为电子设计自动化领域(EDA)的四大顶级会议。

关于作者

论文的第一作者丁立和共同第一作者刘军均来自上海交通大学,通讯作者戴国浩是上海交通大学副教授、无问芯穹联合创始人兼首席科学家。据悉,这是该团队继2019年以结构化稀疏与软硬件联合设计打破加速记录之后,再次以差分稀疏化和软硬协同方案创造加速记录,第二次斩获ASP-DAC最佳论文奖。


责编: 集小微
来源:上海交通大学 #ASP-DAC# #交大AI# #VDiT#
THE END
关闭
加载

PDF 加载中...