北京大学程翔团队构建首个实测注入的通信与多模态感知智能融合数据集SynthSoM，从根本上提升AI原生多模态通感系统性能上限

作者：集小微 06-05 21:08

来源：北京大学 #SynthSoM# #北京大学#

1.2w

未来，移动通信网络支撑下的网联具身智能体将深度融入经济社会，推动各行业与日常生活的革命性变革。针对当前网联具身智能体上通信与多模态感知相互分立、各自为政，进而制约其智能能力的科学问题，北京大学电子学院程翔教授团队首次提出并系统论述了机器联觉（Synesthesia of Machines，SoM）的架构与概念，即面向通用任务的AI原生通信与多模态感知智能融合，利用大模型/无线基座模型，突破多模态通感智能融合的核心技术，提供网联智能发展新路径。由于通信与多模态感知智能融合数据集的体量和质量在训练阶段从根本上决定了未来AI原生的多模态通感系统的性能上限，海量、高质量的通信与多模态感知智能融合数据集至关重要。然而，现阶段的通信与多模态感知数据集（如图1所示）存在缺少完备的通信与多模态感知信息、场景简单单一以及数据集的可信度和可用性未得到充分验证等不足，难以满足未来AI原生系统对于数据集体量和质量的要求。因此，亟需开展海量、高质量的通信与多模态感知智能融合数据集构建研究，作为AI原生的多模态通感系统设计的核心数据基础，支撑机器联觉研究，赋能未来网联智能深度快速发展。

图1 现有典型的通信与多模态感知数据集

然而，构建海量、高质量的通信与多模态感知智能融合数据集极具挑战。首先，实测多模态通感数据采集所需设备繁多且需严格时空同步，从而导致实测数据成本极高、复杂度极高、场景受限且不可控性强。其次，现阶段没有一个仿真平台能直接生成和采集通信与多模态感知仿真数据。为填补上述空白和克服上述挑战，程翔团队创新性地采用机器联觉架构，搭建了首个实测注入的通信与多模态感知仿真数据生成与采集平台，并基于此构建了海量、高质量的通信与多模态感知智能融合数据集SynthSoM: A Synthetic Intelligent Multi-Modal Sensing-Communication Dataset for Synesthesia of Machines （SoM），从根本上提升了AI原生多模态通感系统的性能上限。SynthSoM数据集的构建汇集了3个高可靠仿真软件AirSim、WaveFarer和Wireless InSite，包含4个步骤：高保真场景构建、完备场景条件仿真、动态场景生成、数据采集与导出，以及对SynthSoM数据集可信度和可用性的进一步验证，总体架构如图2所示。

图2 SynthSoM数据集的构建架构

该工作的主要亮点如下：

（1）平台层面：搭建了首个实测注入的通信与多模态感知仿真数据生成与采集平台，汇集了3个高可靠仿真软件AirSim、WaveFarer和Wireless InSite，实现了3个仿真软件的深度融合与精准匹配。

（2）数据层面：包含144万张RGB图、289万张深度图、144万组激光雷达点云、49万组雷达波形、70万组信道矩阵和10万组路径损耗，总计共700万组以上的通信与多模态感知数据，是现有多模态通感数据量的5倍以上。

（3）场景层面：包含空地多路协同网联具身智能场景（网联智能无人车、低空经济无人机）下城镇、郊区、乡村（如图3所示），具有多时段、多天气、多视角、多车流量密度、多频段、多种天线阵列等丰富场景条件，并在不同场景和条件设置过程中采用了多种先进技术和算法，包括射线追踪、激光雷达光散射增强（LISA）算法、协同自适应巡航控制（CACC）汽车跟随模型用于防碰撞检测等。

图3 SynthSoM涵盖的五类空地协同场景：(a) 城镇十字路口 (b) 城镇超宽车道 (c) 城镇高架立交桥 (d) 郊区分岔路口 (e) 乡村山区公路

（4）验证层面：为全面验证构建的仿真SynthSoM数据集的可信度和可用性，首次开展对于SynthSoM数据集的基于统计的定性分析以及实测注入的性能扩展性测试。针对基于统计的定性分析，结果表明在不同场景和条件下所采集的仿真数据与实测数据展现出一致的电磁传播机制；针对实测注入的性能扩展性测试，基于数字孪生技术，在北京大学校园场景搭建精准匹配的实测与仿真场景（如图4所示），采集时空一致的实测与仿真多模态通感数据。基于此，进一步开展在仿真数据训练，在实测数据测试（TSTR）以及在实测数据训练和测试（TRTR），如图5所示。测试结果表明TSTR和TRTR的精度分别为89.28%和90.35%，证明了仿真数据与实测数据的高吻合度使得简单深度学习小模型也有能力实现零样本泛化。

图4 精准匹配的实测场景与仿真场景

图5 实测注入的性能扩展性测试

（5）开源层面：构建的海量、高质量的通信与多模态感知智能融合数据集SynthSoM和代码完全开源，可支撑不同多模态通感智能融合算法的交叉验证、模型校准和基线实现，从根本上提升AI原生多模态通感系统性能上限，支撑未来网联智能深度快速发展。

该研究成果以“SynthSoM: A synthetic intelligent multi-modal sensing-communication dataset for Synesthesia of Machines (SoM)”为题于5月20日正式发表于Nature子刊Scientific Data。北京大学为该研究工作的第一完成单位，合作单位包括山东大学。程翔和山东大学白露教授为该论文的共同通讯作者，程翔、博雅博士后黄子蔚和博士生于勇为共同第一作者，其他作者包括北京大学电子学院博士生孙铭然、韩增瑞、张瑞德和李思江。这项工作得到了国家自然科学基金委杰出青年科学基金、新基石科学基金会科学探索奖、中国博士后科学基金会博士后创新人才支持计划等的支持。