一文讲清楚自动驾驶vla和世界模型worldmodel_1

近年来，智能驾驶技术正迎来范式级跃迁，端到端E2E（End-to-End） 、VLA（Vision‑Language‑Action） 、世界模型（World Model）等前沿概念接连涌现，成为行业最受瞩目的技术方向。其中，世界模型 更是被视作智驾迈向真正通用智能的核心突破口，各大厂商纷纷基于此打造专属技术体系：小鹏推出 世界基座模型 ，蔚来发布端到端世界模型（NIO World Model） ，华为则提出世界行为模型（WEWA：World Engine World Action） 。与此同时，地平线、理想、元戎启行、Momenta等主流玩家也密集布局，一场围绕世界模型的技术竞赛，已然在智驾领域全面打响。

端到端（E2E）智能驾驶架构，彻底打破了传统模块化范式的桎梏，将感知、决策、控制等离散环节熔铸为一个统一的深度神经网络。它不再是由人工定义的子任务拼接而成的流水线，而是从原始传感器数据（如多视角图像、点云等）直接映射到车辆控制指令（如方向盘转角、油门、刹车）的端到端映射函数。

端到端优势：

1.）消除累积误差，提升鲁棒性

传统模块化架构中，感知模块的微小偏差会在后续的预测、规划环节被逐级放大，形成 “误差瀑布”。而端到端模型通过全局优化，直接学习从数据到动作的最优映射，从根本上规避了模块间的信息损耗与误差累积，在复杂、长尾的真实世界场景中展现出更强的鲁棒性与泛化能力。

2.）拥抱数据驱动，释放规模潜力

端到端架构摆脱了对人工规则和先验知识的依赖，其性能提升直接与数据规模和质量挂钩。随着大规模真实驾驶数据和仿真数据的涌入，模型能够自动发现并编码人类难以显式定义的复杂驾驶策略，从而实现 “数据越多，智能越强” 的正向循环，完美契合大模型时代的技术演进规律。

3.）简化系统复杂度，加速迭代效率

传统架构需要为每个子模块（如目标检测、轨迹预测）进行独立的设计、训练和调试，系统耦合度高，迭代成本巨大。端到端架构将整个驾驶系统抽象为一个统一的优化目标，极大简化了工程实现，使得算法迭代、模型更新和新场景适配的效率得到数量级提升。

4.）逼近人类直觉，实现类人驾驶

人类驾驶员并非通过分步推理来驾驶，而是依赖高度整合的视觉、运动直觉。端到端模型通过深度神经网络模拟这种直觉式决策，能够更自然地处理模糊、动态的交通场景，其行为更接近人类驾驶员的流畅与灵活，为实现真正的通用自动驾驶铺平了道路。

端到端模型虽然有上面这么多优势，但也有一个绕不过去的问题，就是中间逻辑是黑盒，这也是很多神经网络的特点，能力强、效率高，但可解释性弱，特别是在自动驾驶领域，对安全性要求非常高。端到端往往需要更多的错误复盘、控制和安全兜底方案，当然这部分世界模型WM会对VLA做补充，后面会有细讲。所以我们能够看到，我们想要的不是黑盒的端到端，而是一个可解释的端到端。

好，端到端的概念清楚之后，我们再看VLA和世界模型，其实这两个技术并不是对立、二选一的关系，反而可以相互补充、深度融合 。从目前的落地情况来看，主流方案还是以VLA（或者说VA） 为主，也就是Vision-Language-Action ，视觉–语言–动作一体化模型。

但如果放到自动驾驶 这种真实场景里就会发现，里面的L（Language 语言）其实不是必需的 。不少厂商就把VLA做了精简，直接优化成VA模型，只保留了Vision + Action ，去掉不必要的语言分支，效率更高、结构更简单、部署更轻量化 。** **

*接下来，我们就重点介绍VLA和世界模型（World Model），搞清楚它们各自在自动驾驶里承担什么角色、*如何相互配合、如何协同工作，最终在真实的自动驾驶场景里，一起实现更安全、更智能、更像人类的驾驶决策。** **

**一. VLA **

**（一）技术思想 **

**我们以2025年最新的VLA论文为切入点来详细介绍，因为是最新的VLA，所以会在原有的VLA基础上做很多改进，但就像我之前说的，技术是相互融合的，不是对立的，技术理念上经常是“你中有我，我中有你”，这才是理解技术演进和发展的正确姿势。 **

https://openaccess.thecvf.com/content/CVPR2025/papers/Renz_SimLingo_Vision-Only_Closed-Loop_Autonomous_Driving_with_Language-Action_Alignment_CVPR_2025_paper.pdf

**图 1 SimLingo VLA Overview **

*该模型以*单一视觉输入为基础，设计了驾驶模式（Driving mode）与梦境模式（Dreaming mode）两大核心工作流，实现“驾驶执行、语言理解、指令跟随” 的三位一体。** **

**1.）共享输入层 **

核心输入
如上图1中间所示，核心输入包括前视相机场景图像（Scene）+ 导航条件（Navigational conditioning）。
导航双选机制 支持GPS 目标点 （传统自动驾驶导航）或高级语言指令（HLC） （自然语言交互），实现从 “坐标导航” 到 “语言导航” 的灵活切换。

**2.）驾驶模式（Driving mode，上图1左侧） **

*聚焦*真实道路闭环驾驶，同时具备可解释性与场景交互能力，输出分为两类：** **

动作输出 预测车辆行驶的路径（Path）与速度（Speed）曲线，直接转化为转向、油门、刹车控制指令。
语言交互输出 支持3类语言任务，解决传统端到端模型 “黑箱” 问题：

3.）梦境模式（Dreaming mode，上图1右侧）

这是最核心的创新设计，在不执行真实危险操作的前提下 ，验证模型对语言指令的执行能力，这其实很像世界模型了。

核心逻辑 输入同一视觉场景 + 不同语言指令，模型仅在 “虚拟层面” 生成对应的路径与速度轨迹。
典型案例 面对施工路段场景，输入 “Accelerate now”（立即加速）“Drive towards the cone”（驶向路锥）等指令，模型输出差异化的动作轨迹，证明其不会仅依赖视觉线索 “走捷径”，而是真正遵循语言指令调整行为。

（二）技术架构

图 2**SimLingo VLA 架构 **

*如图2所示，该架构作为自动驾驶VLA（Vision-Language-Action）领域的里程碑式研究，核心价值在于提出了 “纯视觉、语言、动作强对齐” 的端到端驾驶范式，实现了*语言理解与驾驶动作的因果对齐（解决了诸如嘴上说识别红灯，行动却加速这种不匹配现象）。** **

**该架构同时验证了纯视觉VLA方案在工业级基准中的实用性与领先性，由于仅使用相机，摒弃激光雷达等昂贵传感器，大幅降低高阶自动驾驶的硬件部署成本，推动技术平民化。在CARLA Leaderboard 2.0、Bench2Drive基准达成 SOTA，斩获2024 CARLA挑战赛冠军。 **

**如图2所示，这是一个典型的多模态融合大模型（视觉、语言、动作），也是现在主流的设计方式，就是一套模型，实现多任务统一输出，特别像柔性生产线的概念，即一条生产线同时生产出多种车型。 **

**下面我们分别从输入层、融合层、推理层和输出层四个部分详细分解一下图2的技术架构。 **

**1.）输入层：多模态感知处理 **

**视觉输入： **

原始输入为前视图像分块（Front view tiles） ，解决高分辨率图像编码的算力瓶颈；
前视图图像块（Front view tiles）首先进入InternViT-300M(ViT)进行特征提取。经ViT输出的高分辨率特征图，再经过Pixel Unshuffle (ρ)进行下采样，将空间维度的信息压缩到通道维度，从而减少视觉Token的数量，以复用448×448分辨率的预训练权重，兼顾精度与效率。视觉Transformer的ViT技术，可以参考我之前写的ViT到Swin：大模型从“看图说话”到“专业视觉”的进化。

导航和语言输入分支：

**2.）融合层：Token Interleave **

作为视觉特征与语言特征的跨模态桥梁 ，将InternViT输出的视觉Token与 LLM输出的语言Token进行交织融合；
解决传统VLA模型 “视觉与语言特征独立编码、融合不充分” 的问题，实现两类特征在同一表征空间的深度交互。

关于Token Interleave这里要补充一下，它是SimLingo一种轻量且高效的跨模态融合策略 ，它通过序列级重排 和空间对齐 ，让视觉和语言特征在LLM的自注意力机制下实现深度交互。

这样说可能有点抽象，其实最早多模态的Token对齐不是这么干的。第一种方式很多人都能想到，就是Concat直接拼接，但这种本质上还是“两段式”，语言和视觉的token互相之间无法交互。

第二种是交叉注意力机制，即Cross Attention，采用的就是Transformer的套路即QKV模式，语言token作为Query，视觉token作为Key/Value。这种模式问题是计算量太大，难以扩展到长序列模式。

第三种就是SimLingo的Token Interleave了，序列重排，深度融合，类似于[语言token1，视觉token1，语言token2，视觉token2..] 这样交替插入，按语义分组。这种设计的好处是非常符合直觉的，LLM的自注意力机制可以在每一步都同时关注到语言和视觉信息，而不是先处理完所有语言再看视觉（这样是不符合实际驾驶逻辑的），从而实现更细粒度的跨模态理解。

**3.）推理层：Reasoning **

采用预训练pre-trained Qwen2-0.5B 作为大语言模型基座，通过LoRA（低秩适配） 进行轻量化微调；
既复用了大模型的语言理解能力，又避免了全量微调的高算力成本，适配自动驾驶的端侧、车端部署需求。

稍微补充一下，选择Qwen2-0.5B模型（非常简单的Decoder only架构）也是有多个工程化维度的考量因素：

车端部署的算力约束 自动驾驶系统对延迟和算力有严格要求，车规级芯片（如 Orin-X、Orin-N）的算力有限，大模型（如7B/14B）难以满足实时推理需求。0.5B级模型在算力和延迟上更具优势，是车端部署的现实选择。
任务复杂度的适配 SimLingo的核心任务是语言-动作对齐 ，而非通用对话。它不需要处理复杂的多轮对话或长文本生成，0.5B模型的语言理解能力已足够支撑指令解析、VQA等常规任务。
数据与训练效率 自动驾驶场景下的标注数据成本极高，小模型对数据量的需求更低，训练和微调速度更快，便于快速迭代和验证新算法（如Action Dreaming）。

同时，SimLingo采用LoRA（Low-Rank Adaptation）方式对Qwen2-0.5B进行轻量化微调，仅更新 注意力层（Attention Layers）权重，冻结其他预训练权重。让LLM学会处理 “视觉 Token + 语言Token” 的交织序列，从而在语言输出层面，能够回答VQA问题、生成驾驶决策解释；在动作输出层面，通过路径路点（Path waypoints）和速度路点（Speed waypoints）预测驾驶动作。至少是我目前能看到的比较小的代价，性价比蛮高的！

**4.）输出层： **

**语言输出： **

**直接预测自然语言结果（o_l），支撑VQA、决策解释等任务； **

**动作输出： **

几何路径路点（Geometric path waypoints, o_p）：20个路点，控制车辆横向轨迹；
时间速度路点（Temporal speed waypoints, o_w）：10个路点，控制车辆纵向速度；
轨迹与速度的解耦设计提升了横纵向控制的独立性与稳定性，解决了传统端到端模型 “轨迹与速度耦合导致的控制失准” 问题。

下图3是我给SimLingo VLA总结的三大特点：第一个就是范式创新，即多模态的融合（图像、语言和动作），也包括token层面的Interleaving交错机制；第二个就是模型的可解释性，这肯定离不开语言层面的支持，这个其实很有价值，否则都是黑盒的话，测试就是一个大问题；第三个就是纯视觉的成本优势，数据已经摆在那里，也不需要太多的争议。

图 3**SimLingo VLA三大创新特性 **

（三）实验结果

我把论文里面的实验结果贴在下面，能够明显的看到SimLingo的效果是非常好的！而且，有一点需要重点强调的是SimLingo（具备语言能力的全模型） 的驾驶性能与SimLingo-BASE（仅驾驶的LB2.0 模型） 几乎完全一致（DS：Driving Score 85.07 vs 85.94，成功率 67.27% vs 66.82%）。这证明了其在加入语言理解、VQA、Action Dreaming等能力后，并没有牺牲核心的驾驶性能，完美解决了 “驾驶与语言能力不可兼得” 的行业痛点。

二. 世界模型World Model

（一）技术思想

世界模型被大部分科学家和科技公司视为“物理世界AI”技术远征的关键拼图。斯坦福大学教授李飞飞认为，空间智能是AI的下一个十年，而世界模型是构建空间智能的关键技术。世界模型的核心目的，本质上是让自动驾驶系统学会理解并建模真实世界的物理规律 。

实际上，就和我们上面讲到的VLA一样，它本身也在不断的演进中。而智驾行业里今天谈的“世界模型”也只是名词差异，在技术路径上并没有太大差别。只是对行业原来的仿真工具进行技术范式升级，在还原度更高、颗粒度更高、场景更丰富、自由度更高的虚拟世界中，解决端到端模型测试、验证问题，这一切都是为了训练出效果更高、更加拟人的端到端智驾模型。

在智驾领域，世界模型的兴起，主要还是端到端算法的大量应用促进的。由于这种黑盒的端到端模式的普及，暴露了目前模拟器的短板。所以，各个头部车企其实是在用世界模型的思想来建模拟器，至少目前这个初级阶段是这样的。而世界模型目前又可以分为线上和线下模式，线上需要满足实时业务要求以预测、修正为主；线下就是以模拟为主，当时间不是问题，那就要覆盖度，各种corner case和准确度了。

此外，关于物理规律的学习，在早期阶段，世界模型更多依赖大规模数据驱动的统计规律学习，需要 从海量真实驾驶场景中，隐式习得交通参与者的行为模式、运动趋势与交互关系，形成对世界的概率化认知。其实就是从统计层面去学习物理规律，而不是真正的理解物理规律。

下面是模型通过多模态对齐的方式来学习统计规律，最终模型学习到了“这种视觉外观 + 这种动作 = 这种运动结果”，这其实就是隐式的物理规律。

视觉看到：路面湿、反光、有水迹、轮胎溅水
动作输入：打方向盘、踩油门
实际结果：车身滑移、速度下降慢、偏移更大

但随着技术的不断演进，它会逐步走向显式的3D时空建模（3DGS：3D Gaussian Splatting 高斯重建） ：构建包含几何、物理、时序、因果的统一世界表示，让车辆在 “脑海里” 就能预演未来、推演风险、规划最优行为。

3D建模这点其实是充分体现了世界模型和VLA的核心差异，VLA模型是相当于把图像或者说像素映射成动作，而世界模型是把世界结构，或者说学习到的物理规律和现象映射成动作。将3D结构化标识作为中间层，通过3DGS或者NeRF（Neural Radiance Fields）从像素重建出3D世界，再从3D世界学习动作。而实际落地上，各个厂家也都离不开VLA（这是一个通用框架，不是专门给自动驾驶用的）或者VLA的改进版VA（去掉L，直接Video->Action，这个目前用的比较多），再结合世界模型来共同达到更好的自动驾驶效果。

1.）世界模型的基本定义

如果给世界模型一个简单的定义就是“World Models are adept at representing an agent's spatio-temporal knowledge about its environment through the prediction of future changes”，即世界模型擅长通过对未来变化的预测，来表征智能体关于其所处环境的时空知识 。

https ://arxiv.org/pdf/ 2403 . 02622 v3

图 4世界模型的基础结构****

图4是智能体世界模型框架 的经典示意图，广泛用于解释自动驾驶、具身智能等领域中 “世界模型” 的核心作用。这张图清晰地展示了一个智能体（Agent）如何通过世界模型（World model）与外部世界交互的闭环过程。也直观解释了为什么世界模型能成为下一代自动驾驶的核心引擎。

从 “被动响应” 到 “主动推演” 传统自动驾驶系统是 “看到什么做什么”，而世界模型让智能体能够在 “脑海里”预演未来，提前规避风险。
从 “统计拟合” 到 “物理理解” 世界模型不仅学习数据中的统计规律，更要理解物体运动、碰撞、交互等底层物理规则，从而在长尾场景中做出更可靠的决策。
从 “数据饥渴” 到 “样本高效” 通过在虚拟世界中预演，智能体可以用更少的真实数据学习到更通用的策略，大幅降低自动驾驶的训练成本。

一句话总结就是：世界模型 = 时空知识 + 预测未来 +表征能力。

图 5世界模型必备的三大能力

2.）世界模型的技术演进

世界模型的技术演进非常快，相关的论文也是非常之多，在自动驾驶领域，旨在降低驾驶不确定性的世界模型主要分为两类：作为神经驾驶模拟器的世界模型 ，以及用于端到端驾驶的世界模型 。

核心还是在虚拟世界能够进行准确的模拟，预测未来，再通过端到端统一的时空建模，让决策更流畅、更接近人类驾驶员的直觉。

本小节图片来源 https: / /openvisuallab.github.io/archiver/worldmodel/

world model

（二）技术架构

由于之前提到，相关论文非常多，我们找了一篇ECCV 2024的顶会论文“DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving” 。该研究由GigaAI与清华大学联合完成，是首个完全基于真实世界数据构建的自动驾驶世界模型 ，解决了传统世界模型多依赖仿真环境、脱离现实的核心痛点。

需要说明的是这还是一个2D视频生成模型，该工作后续衍生出了DriveDreamer4D （CVPR 2025），将2D视频生成升级为4D场景重建，进一步推动了自动驾驶闭环仿真 的发展。对于自动驾驶领域，这种技术使得在虚拟世界中，模拟“极端危险、长尾的”真实场景成为可能，大幅降低了实车路测的成本与风险。

https ://arxiv.org/pdf/ 2309 . 09777

DriveDreamer是该论文的核心，不像之前聚焦于游戏或者模拟器的世界模型，DriveDreamer是首个完全基于真实世界驾驶场景构建的开创性世界模型。考虑到在复杂的驾驶场景中进行世界建模涉及巨大的搜索空间，DriveDreamer利用强大的扩散模型来构建对复杂环境的全面表征，即自动驾驶扩散模型（Auto-DM：Diffusion MoDEL） 。

关于扩散模型，可以看我之前的文章从Diffusion到DiT，一文讲清楚扩散模型。扩散模型本质上是一类概率生成模型，其核心原理是先向数据中逐步引入噪声，然后学习逆转这一过程以生成样本。从噪声中生成图片，和从噪声中生成视频的原理其实都是类似的，这个技术有点反直觉，打个比方，就好像语言模型生成的句子是概率最大化的，那扩散模型就是生成的图片或者视频也是所有候选中概率最大的。

此外，DriveDreamer引入了一种两阶段训练流程。在初始阶段，DriveDreamer深入学习结构化交通约束；在后续阶段，模型被赋予预测未来状态的能力。同时，DriveDreamer将其预测能力扩展到预测未来的驾驶策略，其预测过程基于历史观测数据和Auto-DM提取的特征。从而创造出一个可执行、可控且可预测的驾驶世界模型。

图 6 两阶段训练

解耦训练的巧思 两阶段训练是 DriveDreame 的核心创新：先让Auto-DM “学规矩”（交通结构），再让ActionFormer “学交互”（动作与场景的联动），完美解决了传统世界模型 “一口吃不成胖子” 的训练难题。
多模态的深度融合 区别于传统驾驶生成模型，DriveDreamer同时支持结构化输入 （HDMap、3D框等）、文本输入 （天气、时段控制）、动作输入 （驾驶决策），实现了 “所见即所得、所控即所生” 的精准可控性。
与传统技术的差异化

简单总结一下，DriveDreamer完美契合了Yann LeCun提出的 “世界模型”的蓝图，如下图7所示。这里多说一下，如果做世界模型，就得按照这个大架构来，在世界模型里面，Transformer只是一个工具组件，两者关注的层面不一样。

World Model DriveDreamer的Auto-DM就是一个自动驾驶场景下的世界模型，能够生成未来视频和预测驾驶策略。
Actor DriveDreamer能够根据输入的驾驶动作，生成对应的未来场景，这正是 Actor 模块的功能体现。
Perception DriveDreamer从真实世界的驾驶视频中学习，这对应了感知模块从现实中获取信息的过程。

world model

图 7世界模型的整体结构

1.）DriveDreamer整体架构

图 8 DriveDreamer整体架构

左侧：多模态条件输入，本质上是感知模块，对应世界模型（图7）里面的Perception（感知）。

文本提示（Text） 如“A realistic driving scene”，经CLIP编码为文本嵌入，用于控制场景风格（天气、时段等）。对应世界模型（图7）里面的Configurator（配置器），通过文本提示与结构化信息，控制生成方向。
参考图像（Reference ImageI0） 初始帧图像，经编码器生成 “参考风格嵌入”，保证生成视频与初始场景的一致性。
结构化交通信息

中部：ActionFormer（动作预测器），链接感知与世界模型，对应世界模型（图7）里面的Actor（行动者）。

核心功能 接收结构化信息和历史动作，通过自注意力（Self-Attention）与交叉注意力（Cross-Attention），在隐空间中预测未来的道路结构特征zt。
输出将预测的结构特征zt作为条件，输入到右侧的Auto-DM中。

右侧：Auto-DM（自动驾驶扩散模型），这是世界模型的核心，生成未来驾驶视频。对应世界模型（图7）里面的World Model，负责预测未来。

去噪过程（Denoising×T） 采用时空注意力（Temporal-attention）、门控自注意力（Gated Self-attention）和交叉注意力（Cross-attention），将噪声隐变量zt逐步去噪，生成未来帧的隐表示。
双解码器输出

2.）Auto-DM整体架构

图 9 Auto-DM整体架构

如图9所示，Auto-DM的核心是去噪过程，负责将噪声隐变量逐步去噪，生成未来驾驶视频。

输入

空间对齐条件与位置条件拼接后，与噪声隐变量zt一同输入。

核心注意力层
输出去噪后的隐表示z0。

输出与监督（Output & Supervision）

视频解码器（Decoder） 将去噪后的隐表示z0解码为生成视频（Generated Video）。
训练监督 与真实视频（GT Video）的编码隐表示对比，计算噪声预测损失，优化模型参数。

其实，通过看Auto-DM的这个主流程，我们就能非常清楚的看到该论文的核心逻辑，首先必须通过真实的驾驶视频数据来作训练（不能是模拟的或者仿真的），这样才有GT即Groud Truth。但是，Auto-DM并不是简单的做像素级别的对比，否则弄这么复杂的架构就没有意义了。

Auto-DM是先把真实视频编码为 “结构化隐特征” ，再和模型生成的隐特征做对比。参考图9，真实视频生成的隐特征就是GT z0，而预测视频生成的隐特征就是Pred z0，通过计算两者之间的Loss来优化模型。这样做的好处是让模型聚焦于 “符合交通规则的真实驾驶逻辑”，例如车辆轨迹、道路拓扑等等，而不是表面像素。

图9，我们从右向左看，从GT Video开始，整个训练流程如下：

图 10 Auto-DM训练过程

了解了上面的训练过程，那下面的损失函数也就一眼看懂了。是在所有可能的训练样本z、所有可能的噪声ϵ、所有可能的时间步上t，取均方误差MSE ，然后让MSE误差最小。

其中，ϕ是噪声预测器，就是我们要训练的神经网络，包含门控自注意力、时间注意力、交叉注意力层，在图9右下的🔥的标志。

3.）ActionFormer整体架构

图 11 ActionFormer整体架构

ActionFormer是DriveDreamer实现 “动作与场景联动预测” 的核心模块，承担了LeCun世界模型（图7）中Actor（行动者） 与时序推理 的关键功能。

ActionFormer的整体结构。初始结构条件H0（高精地图）和B0（3D边界框）首先被编码并展平为一维隐空间特征。这些隐特征随后被拼接，并通过自注意力（Self-Attention）和多层感知机（MLP）层处理，生成初始隐藏状态Hidden state。

在ActionFromer里面，Cross-Attention交叉注意力用于建立隐藏状态Hidden states和驾驶动作之间的关联，然后送给门控循环单元（GRUs）来处理，通过GRU不断地预测未来的隐藏状态Hidden states。这些预测出的隐藏状态会进一步与动作特征拼接，并被解码为未来的交通结构条件，最终输入至 Auto-DM 中。

了解Transformer的同学都知道Hidden state或者说Hidden vector就是模型经过注意力机制计算后学习到的知识。但这个知识是静态的（记住信息、对齐信息、关联信息），如果要用起来（决策、推理、输出结果），还得需要进一步的处理，在Transformer里面就是FFN前向神经网络，以及Softmax预测结果。所以这也是为什么Transformer模型权重里，FFN占比75左右的原因，因为大头的推理逻辑都在FFN。

讲这些，是想说现在主流的学习特征的模型或者学习关联关系，就是Transfomer的Encoder编码器，更具体就是Self-Attention或者Cross-Attention模块。所以再看图11的架构也会非常的通畅，无非就是加了一些和自动驾驶业务相关联的HD高精地图和3D Box的辅助限制而已。如果想得到未来的交通结构预测，那就继续通过Decoder解码器来推理获得，也就是图11的左上层Dec模块。

（三）实验数据

这里我还是把论文里面的测试数据直接贴过来，总体效果还是很好的，右下表格的FID和FVD指标都是最好的（值越低预测误差越小，效果就越好）

三. VLA和世界模型的融合

**从技术发展的角度来看，VLA和世界模型是一个相互融合的关系，而不是对立的，并不是说VLA就旧了，只有世界模型是新的；也不是说VLA里面有了L就低人一等，功能冗余，性能下降，只能说我们的新能源汽车市场太卷了，大家一定要通过模型的不一样来做高下区分，其实完全不需要。 **

**我们看看VLA和世界模型融合的几种方式吧： **

*模式 1：世界模型做*前置预测 + 安全监督（最常见，FSD，小鹏XNGP方向）** **

**1.）世界模型主要负责：从当前帧，预测未来 1~3 秒的环境。 **

*2.）把*预测出来的 “未来世界” 输入给VLA模型。** **

**3.）VLA不再直接看原始视频，而是看“预测的未来”输出动作。 **

世界模型 =前瞻、预测、物理规律、环境推演
VLA =决策、动作生成、语言条件、驾驶风格

*模式 2：世界模型做*后置校验、安全护栏（Safety Cage） ** **

**1.）VLA 黑盒输出：转向、油门、刹车。 ** **

**2.）世界模型立刻做一次短时序推演。** ** ** **

*3.）世界模型基于安全判断，进行动作修订。（实时性要求非常高，不能有动作空窗。比如为了安全考量，VLA输出转向30度，世界模型同时计算安全边界后，修正到15度直接裁剪输出。）* ** ** **

VLA =大脑、直觉、快速决策
世界模型 =小脑、安全校验、物理可行性判断

模式 3：世界模型与VLA共享同一个 Transformer 主干（联合训练）

这个模式目前比较前沿，业界都还在探索、实验阶段。但从理论上看是一个很好的创新点，包括Wayve、华为和特斯拉等厂家也都在推进。

因为无论是世界模型需要的 “物理规律”，还是VLA需要的 “动作逻辑”，它们依赖的底层视觉特征 （如车道线、车辆轮廓、行人姿态、空间几何）是完全一致的。共享同一个大Transformer Encoder，能让模型学习到更具泛化能力的通用世界表征 ，避免了 “数据孤岛”。

从损失函数层面来看，世界模型的损失 （预测未来、占用、轨迹）提供了物理监督 ，强制模型理解 “因果” 和 “物理规则”。VLA的动作损失 提供了行为监督 ，强制模型学习 “如何决策”。两者可以互相互对齐，让模型学习的比单独训练更快、更准。

此外，之前提到过世界模型分为线下（车端）和线上（云端）两种模式，我看了一下，华为的分类还是比较清楚的。华为WEWA架构是华为乾昆智驾ADS 4.0的核心技术框架，全称为“World Engine-World Action”架构，旨在实现更安全、高效的自动驾驶。该架构由以下两部分组成：

云端世界引擎（World Engine，WE）

** **

功能：通过难例扩散生成模型和安全强化学习，在云端模拟生成高密度、高难度的极端驾驶场景（如前车急刹、行人突然出现、无保护左转等），解决现实中罕见但危险的长尾场景数据不足问题。典型的云端模拟应用场景，所以说世界模型首先要做查缺补漏的事情，而不是一上来要替换谁。

作用：以“AI训练AI”的方式，生成的难例场景密度可达真实世界的1000倍，为模型训练提供丰富数据，提升模型在复杂场景下的鲁棒性。

车端世界行为模型（World Action Model，WA）

** **

功能：基于多模态感知（摄像头、雷达、激光雷达、麦克风等）直接推理和决策，无需经过语言中间环节，直接将感知信息映射到驾驶动作。可以简单理解为VA模型，原理都是一样的，把我第一章VLA里面的L忽略就行了。

特点：采用原生基模型和MoE（Mixture of Experts）多专家能力架构，根据不同场景调用最优专家模型，降低计算负载，提高决策速度和准确性，实现低时延、高精度的车控。

总之，就是华为把“线上和线上”，“VLA和世界模型”，这两对概念分的比较清楚，融合的也比较好。

关于自动驾驶的内容就写到这里，因为涉及的范围实在太大，本篇也无法全部覆盖，但通过从VLA到世界模型这条主线的介绍，给大家提供一个思路或者一条线索来理解自动驾驶领域的技术发展趋势。找机会再单独介绍一下BEV（Bird's Eye View，鸟瞰视角）和占用网格（Occupancy Grid），以及2D到3D、4D的演进。

欢迎关注、转发

原文作者：AI智安前沿，文章仅供学习，如有侵权请留言，我会立即删除，谢谢！

菜单

分享

一文讲清楚自动驾驶vla和世界模型worldmodel_1

一文看懂座舱智驾与舱驾一体芯片有什么区别

example-domain

example-domain

example-domain

小米开年首秀34分钟锁单15万台新一代su7还能继续赢吗

马斯克确认4-月预计会有全新车型发布

詹锟讲理想下一代自动驾驶基础模型mindvla-o1图文版压缩版视频版

詹锟讲理想下一代自动驾驶基础模型mindvla-o1图文版压缩版视频版

刚直播完关于小鹏第二代vla给鹏友们划下重点

黄仁勋gtc演讲全文推理时代到来2027营收至少万亿美元龙虾就是新操作系统