• 行业咨询
  • 品牌营销
  • 集微资讯
  • 知识产权
  • 集微职场
  • 集微投融资
  • 集微企业库
搜索
爱集微APP下载

扫码下载APP

爱集微APP扫码下载
集微logo
资讯集微报告舆情JiweiGPT企业洞察
2025第九届集微半导体大会集微视频
登录登录
bg_img
search_logo
大家都在搜

我国团队国际首创存算一体排序架构,攻克智能硬件加速难题

作者: 集小微 06-27 15:59
相关舆情 AI解读 生成海报
来源:爱集微 #存算一体# #北京大学# #自然#
4246

6月25日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于存算一体技术的高效排序硬件架构(A fast and reconfigurable sort-in-memory system based on memristors),解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,在这一极难攻克的人工智能基础算子加速领域形成优势,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用提供更高效算力支持。该成果由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的团队完成,已在国际顶级学术期刊《自然∙电子》上发表。

排序加速:存算一体架构中难啃的“硬骨头”

排序,作为人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。在传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的“存算一体”架构是突破硬件性能的必由之路。

例如在智能驾驶场景中,车辆在高速公路等简单环境中,只需对周边几台车的行进路线进行排序就能判断是否会对自身安全产生影响,整个耗时可控制在毫秒级别,但在复杂的城市环境中风险来自周边的数百个乃至更多的各类交通参与者,排序的复杂程度和硬件延迟大幅提高;再比如,在抖音、小红书等平台大的规模检索与推荐系统中,用户点击、评分、相似度计算后,常需要对海量的候选内容进行快速排序,找出最相关项,排序性能直接影响系统的响应时间和可扩展性;此外,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。然而,在传统计算架构下,大规模的非线性排序难以在端侧或边缘设备高效完成,这一过程消耗大量时间与功耗,极大制约了具身智能、智能驾驶等新兴技术的发展与普及。

近年来,“存算一体”被认为是突破传统硬件架构计算瓶颈的关键技术,已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,这一难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。

科研团队围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。主要突破包括:首先,开发了一套基于新型存内阵列结构的高并行比较机制;第二,开创性地引入了“忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计;第三,在算子层面,优化了面向人工智能任务的算法-架构协同路径,同时兼容现有矩阵计算;第四,完全自主设计的器件-电路-系统级技术栈整合。

在人工智能系统中,排序通常作为数据预处理或决策中间环节存在,一旦执行效率不高,将成为整个系统的主要瓶颈。论文第一作者、北京大学集成电路学院博士生余连风介绍道,“排序的核心是比较运算,需要精准地实现‘条件判断+数据搬移’,在复杂的应用场景中,要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较-选择’的比较器单元,而传统存算一体架构主要面向‘乘加’、‘累加’等操作,难以支持这样的复杂运算,我们的工作成功解决了这一难题,设计了一种‘无比较器’的存算一体排序架构。”

据实测结果显示,该硬件方案在典型排序任务中提升速度超15倍,面积效率提升超过32倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。论文通讯作者、北京大学人工智能研究院陶耀宇研究员说,“正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为人工智能相关任务构建了全链路的底层硬件架构支持。”

提高计算效率,打造加速引擎

据悉,该技术具有广泛的应用前景,可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。在测试中该技术展现出高速度与低功耗的显著优势。例如,在智慧交通场景中,系统有望在毫秒级内完成十万级事件优先级评估,为超大规模交通决策、应急响应调度等提供高效的实时算力支持。

当前,随着人工智能技术正与物理世界加速融合,算力已从“服务算法”演化为“主导能力边界”的战略资源。存算一体超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动。该成果未来有望广泛应用于国产智能芯片、边缘AI设备、智能制造终端、智慧城市系统等关键领域,为我国在下一代AI技术与智能硬件竞争中提供坚实底座,也为构建安全、高效、自主可控的新一代智能算力体系提供了“加速引擎”。

“根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘AI芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。更重要的是,在社会层面,该技术有望推动新一代智慧交通、智慧医疗、智能制造、数字政府系统更加高效运行,释放数据价值,助力新质生产力形成”陶耀宇研究员介绍道。

近年来,人工智能技术正高速演进,相关应用不断涌现,智能产业发展迸发出巨大活力,蓬勃的发展态势离不开背后算力的支撑。党中央高度重视新型算力体系建设与核心技术突破,多次强调要聚焦关键技术,加快形成新质生产力。北京大学科研团队正是瞄准了‘算力’这个牛鼻子,聚焦‘存算一体’这一关键技术开展高强度科研攻关,实现了从器件到系统的全栈自主设计。这一成果不仅是技术层面的突破,更是攻克了存算一体化排序加速的‘硬骨头’难题,在面向人工智能基础操作的硬件加速领域实现了突破,将为我国建设科技强国,实现高水平科技自立自强注入新算力。

附:论文链接 https://www.nature.com/articles/s41928-025-01405-2

责编: 张轶群
来源:爱集微 #存算一体# #北京大学# #自然#
分享至:
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

相关推荐
  • 华科团队于国际设计自动化会议(DAC 2025)发表 存内科学计算架构研究成果

  • 北京大学集成电路学院/集成电路高精尖创新中心12篇论文入选VLSI 2025

  • 晶存科技与妙存科技分获2025世界半导体大会双项荣誉

  • 专访得一微董事长吴大畏:当存力芯片长出“AI大脑”

  • 北大研制出首款碳纳米管背板驱动的Micro LED微显示器

  • 北京大学朱毅鑫课题组及合作者在高分辨率触觉感知机器人手领域取得重要进展

评论

文明上网理性发言,请遵守新闻评论服务协议

登录参与评论

0/1000

提交内容
    没有更多评论
集小微

微信:

邮箱:


4764文章总数
7922.4w总浏览量
最近发布
  • 中国科学院苏州纳米所研制出氮化镓光子晶体面发射激光器

    4小时前

  • 北理工团队在三维拓扑激子绝缘体研究中取得最新进展

    4小时前

  • 北京理工大学团队在硅基纳米剪纸结构形变调控方面取得重要突破

    4小时前

  • 中山大学微纳结构电子光子与器件研究团队在IEEE Electron Device Letters上发表编辑精选文章

    4小时前

  • 北理工团队在极寒条件下光伏防冰领域取得新进展

    4小时前

最新资讯
  • 美国征收50%铜关税,对半导体产业影响几何?

    16分钟前

  • 从验证到量产,国产半导体材料稳步突围

    21分钟前

  • ASML将公布第二季度业绩 订单量成2026年增长前景关键

    22分钟前

  • 商务部调整发布《中国禁止出口限制出口技术目录》 新增关键技术出口限制

    25分钟前

  • 国产半导体设备热门产品有哪些?

    36分钟前

  • 思特威发布上半年业绩预告,归母净利润预计同比大增140%到180%

    38分钟前

关闭
加载

PDF 加载中...

集微logo
网站首页 版权声明 集微招聘 联系我们 网站地图 关于我们 商务合作 rss订阅

联系电话:

0592-6892326

新闻投稿:

laoyaoba@gmail.com

商务合作:

chenhao@ijiwei.com

问题反馈:

1574400753 (QQ)

集微官方微信

官方微信

集微官方微博

官方微博

集微app

APP下载

Copyright 2007-2023©IJiWei.com™Inc.All rights reserved | 闽ICP备17032949号

闽公网安备 35020502000344号