世界模型：地平线眼中的「认知大脑」

作者：爱集微 2024-09-09

来源：地平线HorizonRobotics #地平线# #端到端# #智能驾驶#

3.2w

智能驾驶的发展速度之快，五年河东，五年河西。面对即将到来的2025高阶智驾决赛点，大家都在期待一个捅破天的智驾产品进化而生。在8月28日举办的地平线高阶智驾技术开放日上，地平线创始人兼CEO余凯博士就当下火热的端到端，智能驾驶未来发展趋势、地平线软硬结合的王炸产品Horion SuperDrive™（HSD™），与参会嘉宾进行了真诚的分享。其中，余凯博士提到，“端到端是每家公司都能掌握的，魔鬼在细节中。” 本篇文章即从端到端讲起，并为大家剖析何为地平线的“驾驶世界观”。

如何让智能驾驶像人类一样开车？属于行业的灵魂之问。

现在，似乎有了一个非常接近的答案——端到端。自去年以来，端到端模型爆火，行业玩家不约而同开始跟进。与此同时，人们发现大量智驾架构上开始出现一个名为“World Model”的模块，与端到端并驾齐驱，成为不可或缺的智驾版图。

世界模型对智能驾驶到底意味着什么？

表面上看，世界模型通过预测未来的范式对数字世界和物理世界进行融合理解，打破了从感知到认知之间的隔阂，有望进一步解决端到端面对样本库以外数据带来的预测失准问题（out-of-distribution），提升智能驾驶的泛化性和安全性。对于地平线，世界模型则是驾驶世界观的重要组成，可以让智驾主体像「Intelligent Driver」（老司机）一样，基于对动静态目标物的感知和推理能力，实现对各类场景的理解和认知。这一切都在为博弈做前提准备，也是通向智能驾驶的重要拼图。

视频展示

世界模型端到端的“外挂”

“World Models”（世界模型）这个词，最早出现在机器学习领域。2018年，机器学习顶会NeurIPS收录了一篇《Recurrent World Models Facilitate Policy Evolution》论文，以认知科学中人脑mental model来类比世界模型，认为mental model参与了人类的认知、推理、决策过程，其中最核心的能力在于反事实推理（Counterfactual reasoning），这是一种人类天然具备，而当时机器还做得很差的能力。

举例来说，哪怕是几个月大的婴儿，看见一个苹果掉落到地上，就几乎了解到重力的本质，之后无论是玩具、花瓶或是书本掉落，都能预测出大概的轨迹，进而做出手接或躲避的动作。即便对于记忆中没有见过的信息，也能推理出抽象认知并进行预测——该定义成为世界模型的雏形，当时很多论文都认为，世界模型一旦产生突破，可以大幅提升机器的决策能力。

今天，世界模型比较普遍的定义是，整合多种语义信息（如视觉、听觉、语言等），通过机器学习、深度学习和其他数学模型来理解和预测现实世界中的现象、行为和因果关系。

世界模型为何突然成为行业追逐的热点？

起因在于智能驾驶正在面临着技术与体验的分岔口，传统的模块化路线降低了开发难度，在智驾“按部就班”上路的过程中发挥了巨大作用，但代码量巨大、泛化性较差、信息传递减损、系统集成困难等缺点也越来越突出，同时驾驶动作机械感很强，与像人一样开车的目标背道而驰，而端到端路线有望解决这些痛点，因此成为大家重点发力的方向。

但端到端也不是万能的，一方面，端到端自身“黑盒”特性决定了，无法简单通过明确的、可解释的规则约束系统的安全边界，带来安全性挑战；另一方面，端到端无法复现复杂的、偶发的corner case，考验可解释性和泛用性能力，把上限提高的同时拉低了下限，即所谓的“跷跷板效应”。此时，世界模型的作用开始显现：一是通过生成式大模型生成带有预测性质的视频数据，实现corner case多样化训练；二是采用强化学习的方法认识复杂驾驶环境，从视频输出驾驶决策。

要博弈，先认知

在地平线的理解里，世界模型还具有更高维度的意义。长期以来，地平线的目标在于探索不断拟人、类人的高阶智驾解决方案，打造一个真正的老司机。问题在于我们说老司机的时候，具体讨论的是什么？是对车况路况的熟悉，是对其他车辆一定程度上的预测，还是面对突发情况刻进肌肉记忆的操作？

我们先想到的是老司机的反面——新手司机在没有经验的情况下，只能依赖眼见为实，看到什么就操作什么，还没有学会使用直觉来走捷径；同样，单纯基于感知的智驾方案，通常情况下反应准确、及时、安全，但对于没有在训练数据中出现过的物体、环境和策略，它就显得不够聪明。

老司机的mental model使得他能够在理解常识的前提下，具备和驾驶环境交互博弈的能力，这里举一个比较常见的实例，比如前些日子，北京受台风水汽影响，频繁暴雨，地平线高阶城区智驾系统SuperDrive挑战了北京闹市区雨天晚高峰，暴雨天气会影响汽车的精准感知，但HSD™依然展现出了几大能力：

视频展示

在汇流路段能预测旁车行驶意图，主动博弈积极变道快速汇入目标车道
在路口右转的场景下，对前方行人通过速度展现了一定的预判能力
面对经典鬼探头加塞，判断左侧没有车辆，进行小幅度绕行避让
面对人车混行，可以优雅礼让、丝滑绕行
无车道线道路维修区域通行

从中可见司机交互博弈能力带来的差异：对未来几秒交通环境的认识，比如隔壁车辆会不会突然变道、遮挡或不可见环境下弱势道路使用者的轨迹等，新手司机通常要看清楚才能做出反应，这往往伴随着急停、大幅度躲避、长时间等待让行等动作，驾驶体验自然较差，而老司机能认识并预测，通过感知-认知-博弈-决策-行动的循环，选择最有利的驾驶逻辑，保障安全性和驾驶体验。

类比到智驾上，单纯基于CNN（卷积神经网络）的学习方式，主要基于规则堆砌，场景有细微的变化就会出错，只能像打地鼠一样不断去手写规则覆盖，即存在能力无法泛化、没有理解力等问题。对此地平线提出“交互式博弈”，核心在于通过生成式规控GPM、安全性规控学习SEditor、混合强化学习方法PEX，以数据驱动学习框架的方式兼具模仿学习的效率及强化学习的闭环效果，相比模仿学习碰撞率降低了50%，相比强化学习舒适度提升了20%。但要进一步实现高阶的智能驾驶，需要车同时具备“最快的思考”和“提前的理解”，机器要认识驾驶环境的现象、行为和因果关系，而非对视频输入的视觉信息进行“回合制游戏”式的处理，才能及时与驾驶过程中的各种元素因子进行博弈，此时世界模型就承担了「驾驶世界观」的作用。

因此，完善的高阶智驾系统，应当是端到端+世界模型结合形成具备交互博弈能力的老司机，这也是未来智能驾驶专用机器人的发展方向。

在端到端的基础上探索认知之路

现阶段，端到端对高阶智能驾驶的作用已被验证，而世界模型在端到端系统中可以用来构建环境的动态表示，提取对物理世界的抽象认识，确保各种工况下驾驶行为的拟人和流畅。

要实现从新手司机到老司机的跨越，软件算法与硬件算力缺一不可。早在2016年，地平线就率先提出了智能驾驶端到端的演进理念，2022年提出行业领先的智能驾驶感知端到端算法Sparse4D，在2023年发表端到端智能驾驶大模型UniAD，并且积累了基于交互博弈的端到端深度学习算法；在硬件上，地平线打造了新一代智能计算架构BPU 纳什，不仅是算力和功耗的优化，还将感知、规控等各种任务统一到Transformer框架下，更好支撑大模型带来的“随机应变”、“举一反三”等新能力，为端到端和世界模型的发展奠定了软硬基础。

地平线面向量产的端到端世界模型，能够通过隐式信息为自身同周边环境的“交互博弈”提供推演假想，同时通过显式信息为系统提供安全边界。举例来说，以前智驾系统高度依赖对世界的测绘，以及高精地图僵化的输入，如果地图真实路况和地图路况存在差异，人会怎么开？会继续往前探一探，小心的走一走，世界模型通过收集各种信息，进行综合理解，输出一个下游能够使用的、包含了隐式信息以及显式信息的世界理解结果，形成一个智能驾驶系统的世界观，它代表一套价值——不能不顾下限，上限也要高。

在操作上，主要输出三种下游能够使用的模态：第一是基于Transformer的端到端感知，提升全方位感知性能，加快系统迭代；第二是通过动态+静态+OCC三网合一兼顾低延时和高精度，提升全方位认知和推理能力；第三是通过虚拟相机长距离检测，带来更灵活的感知范围与精度，满足不同场景的感知规格。

具体交互方面，地平线提出在仿真、司机行为和专家系统等传统梯度的基础上，将世界模型作为额外的梯度来源，提供额外的损失函数，为预测未来事件提供支撑，以及确保多个摄像头捕捉到的信息一致性。这一模式在地平线发布的HSD™中有所体现：当地图信息和传感器信息输入World Model，通过数据训练、动静推理、场景理解和场景泛化处理后，输出对动静态目标和高维feature化数据的预测，即仿真、想象、演绎甚至脑补，支撑系统的交互博弈，进而作出驾驶控制动作，整个过程就像有个负责兜底、负责下限的人：他会持续地跟这个世界交互式推演心智模型，一方面假设这个世界充满多种可能性，所以会发送多个请求查询给到端到端的planner，让他帮忙推演未来会发生什么；另一方面又坚持自己的底线，在很多评估结论中，以安全、简洁、有原则的便捷来判定系统输出是否符合预期。

该模式的优势在于，既可输出高维feature，实现信息无损传输，驱动更拟人的驾驶操作，带来很高的体验上限，同时在少量规则安全兜底下，能输出高性能动静态目标结果，保障了系统的下限，实现高阶智驾产品Scale Up的突破。这基于神经网络的“黑盒”路径更加雷同人类驾车的大脑模型，是智驾向拟人化演进的关键一步。

离人近一点：世界模型的长远价值

可见，我们认为端到端世界模型的现实意义在于提升算法对复杂场景的处理能力，将对智驾技术的发展打开新的大门，减少“黑盒”带来的不可控风险。当智驾汽车开始越过时空认知的门槛，笨拙死板的驾驶模式会越来越少，也有利于道路整体驾驶环境的统一趋同，从智驾监管、车辆交互、行车安全等方面都有很大的推动作用。

除此之外，我们还看到世界模型带来的更多长远价值：对世界的领会。就像地平线智驾系统架构师刘景初说的那样，世界模型可以在感知环节输出相对完整的对驾驶环境的理解，进一步提升数据驱动对规则算法的替代程度。这意味着世界模型可以为端到端路线发展减负和加速，比如地平线面向量产的端到端World Model，已能实现降低75%反应时延、50%的网络负载和减少90%的动态代码行数，提同时升70%准召率，降低80%压线量误判率和20%Bbox回归误差，随着世界模型技术进一步发展，效果会更加显著。

第二个长远价值在于，对世界的领会意味着强大的泛化能力。举例来说，人类大脑模型在学车和开车的过程中会不断进行自我修正，最终形成经验，去适应和处理从来没有见过的case，而无需重复地建立这一过程。同理，世界模型可以让高阶智驾形成对复杂驾驶环境的通用理解，而非对输入的重复依赖，实现全场景覆盖、功能连贯性和体验一致性，比如在陌生区域同样能沿用熟悉区域的驾驶逻辑等，这点在地平线SuperDrive中也有体现。

当下，业内众多车企和供应商已经密集发布自己的端到端方案，世界模型成为绕不开的重要一环。随着软件与硬件的发展，尤其是大模型与算力的突破，使得智驾发展逐渐不再满足于最低限度的上路表现，而是从道路交通安全、驾驶体验优化的角度，让机器人驾驶行为无限接近真人，实现对人类驾驶员的解放。

地平线的技术信仰一直是以终为始和以人为本。将最终任务作为技术研发的起点，从一开始就追求让系统像老司机一样预测、推理、学习、决策……上路不是目的，好开、会开、爱开，减少人机差异带来的安全风险和驾驶陌生感，让人类生活更美好，才是技术进步的最大意义。