北京大学集成电路学院/集成电路高精尖创新中心贺明研究员团队在多模态感知融合研究中取得重要进展

作者：集小微 06-22 22:22

来源：北京大学集成电路学院 #北大# #铁电# #半导体#

2.8w

科研进展

人脑能够跨越视觉和听觉多源感官无缝融合信息，利用超加性（Superadditivity）、反向效应（Inverse effectiveness）和时间一致性（Temporal congruency）等神经整合原则，在极低功耗下实现高效多模态感知融合。然而，当前人工智能系统主要依赖传统的“先传感，后融合”算法架构，导致缺乏生物神经系统的自适应和非线性耦合特性，在边缘端硬件部署时面临巨大的功耗与延迟问题，限制了边缘智能感知的性能。

针对上述问题与挑战，北京大学集成电路学院/集成电路高精尖创新中心贺明研究员团队提出了一种基于铁电半导体晶体管器件（FeS-FET）物理计算驱动的声光原位融合新方案。研究团队利用低压化学气相沉积（LPCVD）方法引入晶格应变，成功打破了二维Bi2O2Se半导体的晶体对称性，使其产生本征铁电极化，实现铁电与半导体特性并存（图1）。通过将声音信号转换为栅极电压调控铁电极化，并与晶体管沟道的光电响应进行深度的物理层级耦合，团队率先在单器件层面实现了物理计算驱动的声光信息原位融合，完美复刻了生物多感觉融合的核心神经行为。

图1. 应变工程调控的Bi2O2Se铁电半导体。

实验结果表明，FeS-FET器件的声光融合增强因子高达2800%，时间一致性窗口突破103 s，展现出极强的跨模态时间异步耦合能力，单器件操作窗口下的功耗低至15 pJ，相较于传统复杂的算法层融合，表现出巨大的能效优势（图2）。研究团队进一步构筑了FeS-FET声光融合阵列及其脉冲生成电路，该电路能够将前端多物理场耦合生成的模拟融合信号，实时转化为时间编码脉冲序列。该器件阵列不仅具备出色的频率选择性与仿生突触可塑性，极大地降低了感知神经元激活阈值。

图2. Bi2O2Se铁电半导体晶体管的原位声光融合。

为了实现端到端的多模态感知融合，研究团队将该前端物理融合FeS-FET阵列与TaOx基RRAM芯片结合，构筑出完整的层级化神经形态多模态感知识别系统（图3）。依托1 Mbit RRAM阵列的高精度权重存储能力与全并行乘加计算优势，实现了对海量模糊车辆目标的精准分类。测试结果显示，该多模态融合系统对模糊车辆的识别准确率高达98.2 %，性能超越了单模态识别以及传统的算法级后融合方案，即便在注入强高斯噪声的极端恶劣干扰下，该系统依然能够保持95 %以上的高分类准确率，展现出优秀的环境抗干扰能力。

图3. 基于FeS-FET阵列与RRAM芯片的多模态声光融合识别系统。

相关研究成果以“Biomimetic Ferroelectric-Semiconductor Transistor Enables Neuronal Multisensory Integration”为题，发表在《自然-通讯》（Nature Communications）。北京大学集成电路学院2020级博士生刘硕、2020级博士生张力公、2024级博士生吴志远、软件与微电子学院2023级硕士生谢瑞清为共同第一作者，贺明研究员、刘飞研究员、王宗巍研究员与蔡一茂教授为共同通讯作者。研究工作得到了国家重点研发计划、国家自然科学基金、北京新星计划以及高等学校学科创新引智计划等项目的资助，同时得到了微纳电子器件与集成技术全国重点实验室、集成电路高精尖创新中心以及国家集成电路产教融合创新平台等基地平台支持。