CVPR 2025｜DiffusionDrive: 迈向生成式多模态端到端自动驾驶

作者：爱集微 03-07 20:02

来源：地平线 #地平线#

DiffusionDrive方法概述

近年来，端到端自动驾驶成为研究热点，其核心在于从传感器数据直接学习驾驶决策。然而，驾驶行为本质上是多模态的——同一场景下可能存在多种合理轨迹，例如在复杂路口，车辆可选择左转、右转或直行。这种多样性是提升自动驾驶鲁棒性和安全性的关键，但现有方法往往受限于单一轨迹回归或固定锚点采样，难以全面建模驾驶决策空间。

扩散模型 (Diffusion Model) 凭借强大的多模态建模能力，已在机器人决策学习中得到验证。其逐步去噪机制能从复杂数据分布中生成多样性强、符合物理约束的轨迹，使其成为自动驾驶多模态规划的理想选择。然而，扩散模型直接应用于端到端自动驾驶仍面临计算开销高和模式崩溃 (Mode Collapse) 的问题——传统扩散模型需多轮迭代去噪，导致推理速度难以满足实时需求，同时在高度动态的交通场景下，生成轨迹往往趋于重叠，无法充分展现驾驶决策的多样性。

为此，我们提出截断扩散策略 (Truncated Diffusion Policy) ，结合多模态锚点先验 (Multi-mode Anchors Prior) ，通过截断扩散过程，使模型从锚定的高斯分布 (Anchored Gaussian Distribution) 直接去噪至多模态驾驶轨迹分布。该方法避免了从纯随机噪声开始的冗长迭代，仅需2步即可完成高质量轨迹推理，相比传统扩散策略加速10倍。此外，我们设计了级联扩散解码器 (Cascade Diffusion Decoder) ，增强模型对场景信息的交互能力，提升轨迹预测精度。

我们提出的DiffusionDrive首次在端到端自动驾驶中引入扩散模型，并通过截断扩散策略与级联扩散解码器，有效解决计算开销与模式崩溃问题，为构建高效、鲁棒的多模态自动驾驶规划提供了新思路。

范式对比

对比不同的端到端自动驾驶范式：

(a) 单模态回归方法，通过Ego Query机制直接预测单一轨迹，但忽略了驾驶行为的多模态特性，难以适应复杂交通场景。

(b) 预定义锚定轨迹采样方法，通过固定的锚定轨迹集来离散化轨迹空间，并基于评分机制进行选择，虽然能够一定程度上捕捉多模态行为，但受限于锚定轨迹数量和分布，难以泛化到未见场景。

(d) 我们提出的截断扩散策略，通过引入锚定高斯分布，利用多模态锚点作为初始分布，使模型从更合理的轨迹分布开始去噪，从而显著减少计算开销，仅需少量去噪步骤即可生成高质量的多模态轨迹，在保证多样性的同时大幅提升推理效率，使其更适用于实时自动驾驶。

截断扩散策略

传统扩散策略在端到端自动驾驶任务中的应用面临两大核心挑战：高计算成本和模式崩溃。扩散模型的去噪过程通常需要多轮迭代，例如20轮，以逐步将纯高斯噪声转化为可行的驾驶轨迹。然而，这种逐步推理方式导致计算开销极高，难以满足实时自动驾驶的要求。此外，由于自动驾驶场景高度动态且充满不确定性，扩散模型从随机噪声生成轨迹时，可能会产生高度相似、甚至完全重叠的轨迹分布，导致模式崩溃，使得生成的轨迹多样性不足，难以覆盖真实世界中的驾驶决策空间。

为了解决这些问题，我们提出截断扩散策略，通过结合多模态锚点先验，优化扩散模型的初始化和去噪过程，使其能够从更合理的轨迹分布出发，而非从完全随机的高斯噪声开始。具体而言，我们首先在训练数据中对驾驶轨迹进行聚类，得到一组代表性的锚点轨迹 (Anchor Trajectories) ，这些锚点能够较好地覆盖不同驾驶场景下的典型轨迹模式。在训练时，我们不再让模型从纯随机高斯分布中学习去噪，而是在锚点轨迹的基础上添加少量噪声，形成一个更具物理合理性的初始分布。相比于传统扩散模型直接从随机噪声学习驾驶行为，这种方式大幅减少了去噪步骤的需求，让模型可以从更接近真实驾驶行为的轨迹分布中进行优化。

在推理阶段，我们直接从这些锚定的轨迹分布中采样，而不是从完全随机的高斯噪声开始，并大幅缩短去噪过程，仅需2轮去噪步骤即可生成高质量的驾驶轨迹，相比传统扩散策略加速10倍。此外，为了进一步提升轨迹的合理性，我们在去噪过程中引入了置信度评分机制 (Confidence Scoring Mechanism) ，通过对去噪后的轨迹进行动态评分，筛选出最符合物理约束和场景要求的轨迹。这种评分机制可以有效过滤掉异常或重叠的轨迹，避免模式崩溃问题，使最终生成的轨迹既具备多样性，又保持合理性。

此外，我们设计了一种级联扩散解码器，提升模型在去噪过程中的场景感知能力。传统扩散模型通常采用单步解码，即直接在每一步去噪后输出轨迹，而我们的级联扩散解码器允许模型在每个去噪步骤中与环境感知信息进行多轮交互，通过层层递进的方式优化轨迹质量。这种级联机制结合了稀疏可变形注意力 (Sparse Deformable Attention) ，使得模型能够高效地从鸟瞰视角 (BEV) 和透视视角 (PV) 提取关键信息，提升轨迹生成的稳定性和鲁棒性。

综上，我们的截断扩散策略不仅保留了扩散模型在多模态轨迹建模上的强大能力，还通过锚点先验和去噪优化，显著提升了推理效率，并通过置信度评分和级联解码器，有效解决了模式崩溃问题，最终使得生成的驾驶轨迹更加贴近真实驾驶行为，使其更适用于实时自动驾驶系统。

实验验证

我们选择采用更加严格的闭环评测方式，针对驾驶决策的数据集NAVSIM，来验证我们的设计：

可以看到DiffusionDrive大幅领先之前所有的端到端方案，仅仅通过学习人类驾驶行为，不引入额外监督与后处理，我们超过了之前的冠军方案Hydra-MDP。

EP指标的明显优势更是凸显了DiffusionDrive方法的鲁棒性。因为EP指标用于评测planning的完成度以及对干扰的鲁棒性，而DiffusionDrive在这一指标上具有十分突出的优势。

在消融实验中，显示我们提出的截断式扩散策略和设计的Diffusion Decoder相比于传统扩散策略能够带来更高的planning质量 (PDMS) ，更高的planning多模态特性 (D) ，更快的速度 (FPS) 。

可视化验证

我们将模型在验证集上推理得到的多模态轨迹可视化出来：

如上图所示，我们不仅能够输出保守的跟车，也能够输出合理换道超车的行为。

上图也是进一步验证DiffusionDrive鲁棒的多模态特性，输出多样化的planning轨迹能够进一步与环境交互，避免碰撞。

上图显示DiffusionDrive还能和红绿灯交互，所以在除了跟车行为之外的换道行为时，选择停在停止线上，而模型在训练中并没有红绿灯的标注，通过提出的范式，使得模型学习到了潜在的驾驶底层逻辑。

业务验证

DiffusionDrive也在业务数据集上进行了规模化验证。

总结

我们提出DiffusionDrive，一种基于扩散模型的端到端自动驾驶方法，以截断扩散策略解决传统扩散方法的高计算成本和模式崩溃问题。通过引入多模态锚点先验，我们将去噪过程从锚定的高斯分布开始，而非从纯随机噪声进行迭代，大幅减少计算量，仅需2步即可生成高质量轨迹，相较于传统扩散策略推理加速10倍。此外，我们设计了级联扩散解码器，结合场景感知信息逐步优化轨迹，提升轨迹预测的多样性和准确性。

实验表明，DiffusionDrive在NAVSIM和nuScenes数据集上均取得最优表现，显著提升了规划质量、轨迹多样性和计算效率。相比现有SOTA方法，DiffusionDrive在保证实时性的同时，提高了20.8%轨迹精度，降低63.6%碰撞率。此外，我们更是在真实场景中验证了DiffusionDrive的有效性。

本研究首次将截断扩散策略引入端到端自动驾驶，突破了扩散模型计算开销大、模式崩溃的瓶颈，为实时高效的多模态驾驶决策提供了一种全新范式。