压缩版:
VLA (Vision Language Action) 模型的出现标志着机器人技术从传统的基于策略的控制向通用机器人技术的范式转变 。它将视觉语言模型 (VLM) 从被动的序列生成器重构为能够在复杂动态环境中进行主动操作和决策的智能体 。
该综述对VLA方法进行清晰的分类和系统性的回顾。
VLA方法主要可分为四类:基于自回归、基于扩散、基于强化学习以及混合与专用方法 。
基于自回归 (Autoregression-based) 的模型
核心思想: 将动作序列视为时间依赖过程,逐步生成动作 。
创新与发展:
通用智能体: 通过统一的多模态Transformer(如Gato, RT-1/RT-2, PaLM-E)实现跨任务的泛化 。
推理与规划: 结合大语言模型 (LLM) 进行链式思考 (Chain-of-Thought) 和分层规划,处理长时程和复杂任务 。
轨迹生成: 直接将语言指令映射为运动轨迹,并通过视频预训练增强时间建模能力 (如LATTE, VIMA, GR-1/2) 。
效率优化: 采用层级规划、动态推理、量化和并行解码等技术,减少计算冗余和延迟,以适应实际部署需求 (如HiP, DeeR-VLA, FAST) 。
局限性: 存在误差累积、推理延迟、多模态对齐脆弱以及模型扩展性受计算资源限制等问题 。
基于扩散 (Diffusion-based) 的模型
核心思想: 将动作生成视为一个条件去噪过程,能够对多模态的动作分布进行建模 。
创新与发展:
通用方法: 将策略学习重新解释为视频生成,并利用几何感知方法(如SE(3)约束)确保动作的物理一致性 。
多模态融合: 利用Transformer(如Dita)统一处理视觉、语言和动作等异构模态,实现灵活的目标条件化 。
应用优化: 出现轻量化设计(如TinyVLA, SmolVLA)以降低训练成本,并发展出双系统/三系统等认知启发式架构,提升任务性能和可解释性 。
局限性: 在动态环境中的时间一致性仍然脆弱,计算资源需求大,且在安全关键场景下的可靠性研究不足 。
基于强化学习 (Reinforcement-based) 的模型
核心思想: 整合VLM与强化学习,利用视觉和语言输入在交互式环境中生成上下文感知的动作 。
创新与发展:
奖励函数设计: 利用VLM从人类演示中学习奖励代理,简化奖励工程 。
安全对齐: 提出约束学习对齐机制(如SafeVLA),在不牺牲任务性能的前提下,防止高风险行为 。
混合策略: 结合离线学习(从演示中提取策略)和在线学习(与环境交互以稳定和改进策略),实现安全高效的训练 。
效率策略: 采用量化、剪枝和知识蒸馏等方法来压缩模型,提高推理速度并减少内存占用 。
局限性: 奖励工程依然复杂且可能产生噪声;训练稳定性受监督微调和探索之间相互作用的影响;扩展到高维真实世界环境的计算成本高昂 。
混合与专用方法
混合架构: 结合不同范式(如HybridVLA),利用扩散生成平滑的轨迹,同时保留自回归模型的推理能力 。
多模态融合与空间理解: 从早期的特征拼接发展到显式建模几何、功能可见性 (affordances) 和空间约束的3D感知架构 (如CLIPort, 3D-VLA) 。
领域适应: 将VLA框架扩展到自动驾驶、人形机器人控制和图形用户界面 (GUI) 交互等特定领域 。
基础模型: 通过大规模多模态数据集(如DROID)和可扩展架构,构建通用机器人智能体 。
实际部署: 关注效率、安全性和人机协作,开发实时推理、故障检测和交互式学习循环等技术 。
数据集: VLA模型的发展严重依赖高质量数据集 。
真实世界数据集: 如Open X-Embodiment (OXE) 、BridgeData 和 DROID ,这些数据集整合了来自多个机构的机器人数据,推动了算法的泛化能力。
模拟数据集: 如ALFRED 、RLBench 和 CARLA ,它们为大规模、可控和安全的模型训练与评估提供了环境 。
模拟器: 诸如THOR 、Habitat 、MuJoCo 和 Isaac Gym 等工具,为开发和评估智能机器人在多样化交互环境中的能力提供了必不可少的平台 。
核心挑战:
数据稀缺性: 真实世界机器人交互数据的规模和多样性仍然不足 。
架构异构性: 不同模型采用各异的骨干网络和设计,阻碍了模型的比较和复用 。
实时性约束: 大规模Transformer架构的推理速度严重限制了其在需要毫秒级响应的真实机器人上的应用 。
评估局限性: 当前基准主要集中在受控环境,无法充分衡量模型在开放世界中的泛化性和鲁棒性 。
未来机遇:
世界模型与跨模态统一: 实现语言、视觉和行动的深度耦合,使VLA演变为能够联合建模环境、推理和交互的“世界模型” 。
因果推理与真实交互: 发展能够基于因果定律进行探索和验证的模型,克服“伪交互”的局限 。
虚拟-现实融合: 结合高保真模拟和合成数据生成,构建超大规模轨迹数据集,推动具体化泛化能力的飞跃 。
社会嵌入与可信赖生态系统: 建立风险评估、可解释性和问责制的标准化框架,将VLA从实验室工具转变为社会中值得信赖的合作伙伴 。
加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,不是车友群。

以下为自动驾驶之心原文:
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。
为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA在不同场景下的应用,并将VLA方法划分为多个范式:自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方式。
此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发展的机遇与挑战。
- 论文标题:Pure Vision Language Action (VLA) Models: A Comprehensive Survey
- 论文链接:https://arxiv.org/abs/2509.19012
一、引言
机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些方法通常应用于简单、重复性的任务,例如工厂装配线作业和物流分拣。近年来,人工智能技术的快速发展使研究人员能够利用深度学习在多种模态(包括图像、文本和点云)下的特征提取与轨迹预测能力。通过整合感知、检测、跟踪和定位等技术,研究人员将机器人任务分解为多个阶段,以满足执行需求,进而推动了具身智能与自动驾驶技术的发展。然而,目前大多数机器人仍以“孤立智能体”的形式运行——它们专为特定任务设计,缺乏与人类及外部环境的有效交互。
为解决这些局限性,研究人员开始探索整合大型语言模型(Large Language Models, LLMs)与视觉-语言模型(VLMs),以实现更精准、灵活的机器人操作。现代机器人操作方法通常采用视觉-语言生成范式(如自回归模型或扩散模型),并结合大规模数据集与先进的微调策略。我们将这类模型称为VLA基础模型,它们显著提升了机器人操作的质量。对生成内容的细粒度动作控制为用户提供了更高的灵活性,释放了VLA在任务执行中的实际应用潜力。
尽管VLA方法前景广阔,但针对纯VLA方法的综述仍较为匮乏。现有综述要么聚焦于VLMs基础模型的分类体系,要么对机器人操作技术进行整体的宽泛概述。首先,VLA方法是机器人领域的新兴方向,目前尚未形成公认的方法体系与分类标准,这使得系统总结这类方法面临挑战。其次,当前综述要么基于基础模型的差异对VLA方法进行分类,要么对机器人应用领域的整个发展历程进行全面分析,且往往侧重于传统方法,而对新兴技术关注不足。虽然这些综述提供了有价值的见解,但它们要么对机器人模型的探讨较为浅显,要么主要聚焦于基础模型,导致在纯VLA方法的研究文献中存在明显空白。
本文对VLA方法及相关资源进行了深入研究,针对现有方法提供了聚焦且全面的综述。我们的目标是提出清晰的分类体系、系统总结VLA研究成果,并阐明这一快速发展领域的演进轨迹。在简要概述LLMs与VLMs之后,本文重点关注VLA模型的策略设计,突出以往研究的独特贡献与显著特征。我们将VLA方法分为五类:自回归型、扩散型、强化学习型、混合型及专用方法,并详细分析了各类方法的设计动机、核心策略与实现机制(如图2所示,本文展示了这些方法的VLA框架结构)。
此外,本文还探讨了VLA的应用领域,包括机械臂、四足机器人、人形机器人和轮式机器人(自动驾驶车辆),全面评估了VLA在不同场景下的部署情况。考虑到VLA模型对数据集与仿真平台的高度依赖,本文还简要概述了这些关键资源。最后,基于当前VLA研究现状,本文指出了该领域面临的关键挑战,并勾勒了未来研究方向——包括数据局限性、推理速度与安全性等问题——以加速VLA模型与通用机器人技术的发展。
本综述的整体结构如图1所示:第2章概述VLA研究的背景知识;第3章介绍机器人领域现有的VLA方法;第4章阐述VLA方法所使用的数据集与基准测试集;第5章与第6章分别讨论仿真平台与机器人硬件;第7章进一步探讨基于VLA的机器人方法面临的挑战与未来方向;最后,对全文进行总结,并对未来发展提出展望。
综上,本文的主要贡献如下:
-
提出了结构清晰的纯VLA方法分类体系,根据其动作生成策略对方法进行分类。这一分类体系有助于理解现有方法,并突出该领域的核心挑战。
-
综述强调了每类方法与技术的显著特征及方法创新,为当前研究提供了清晰的视角。
-
全面概述了用于VLA模型训练与评估的相关资源(数据集、基准测试集与仿真平台)。
-
探讨了VLA在机器人领域的实际应用价值,指出了现有技术的关键局限性,并提出了潜在的进一步研究方向。

二、背景
视觉-语言-动作(VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术迈出了重要一步,同时也将视觉-语言模型(VLMs)从被动的序列生成器转变为能够在复杂动态环境中进行操作和决策的主动智能体。本章将从单模态基础模型的发展、VLA模型的演进,以及通用具身智能的未来方向三个维度,梳理VLA研究的技术背景。
早期:LLM/VLM基础模型
单模态建模的突破为多模态融合奠定了方法学和工程基础。在不同模态领域,一系列里程碑式的模型为VLA的诞生积累了关键技术能力:
计算机视觉领域
计算机视觉领域的核心进展在于建立了从局部卷积到深度表征学习的范式,并通过注意力机制进一步提升了模型的迁移性和泛化能力:
-
卷积神经网络(CNNs) :AlexNet首次证明了深度CNN在图像分类任务中的优越性,开启了深度视觉学习的时代;ResNet通过残差连接解决了深度网络训练中的梯度消失问题,进一步推动了网络深度的提升。
-
视觉Transformer(ViT) :ViT将自注意力机制引入图像领域,将图像分割为固定大小的“图像块”(image patches)并将其视为序列输入,大幅提升了模型对全局信息的捕捉能力,为跨模态序列建模提供了重要参考。
自然语言处理领域
自然语言处理(NLP)领域的突破源于Transformer架构的提出,该架构支持大规模预训练和模态对齐技术,催生出具备强大推理、指令跟随和上下文学习能力的大型语言模型(LLMs):
-
代表性模型包括BERT(双向Transformer预训练模型,擅长理解任务)、GPT系列(生成式预训练Transformer,从GPT-1到GPT-4,逐步提升了长文本生成和复杂推理能力)、T5(文本到文本统一框架,支持多种NLP任务)。
-
这些模型通过海量文本数据的预训练,掌握了丰富的语义知识和语言逻辑,为后续融合视觉信息、生成动作指令奠定了语言理解基础。
强化学习领域
强化学习领域的进展聚焦于策略优化和序列决策能力的提升,从早期的深度Q网络(DQN)、近端策略优化(PPO),到后来的决策Transformer(Decision Transformer),形成了通过序列建模统一控制任务的新视角。决策Transformer将强化学习中的“状态-动作-奖励”序列视为文本序列进行建模,为VLA中“感知-语言-动作”的统一序列处理提供了思路。
视觉-语言模型
VLMs作为连接单模态学习与具身智能的关键桥梁,经历了从模态对齐到复杂跨模态理解的发展过程:
-
早期对齐模型 :ViLBERT、VisualBERT通过双流或单流Transformer架构实现图像与文本的对齐和融合,初步解决了跨模态表征问题。
-
对比学习模型 :CLIP(对比语言-图像预训练)通过大规模图像-文本对的对比学习,将两种模态映射到共享嵌入空间,支持零样本和少样本识别与检索,为VLA的“视觉-语言”基础对齐提供了核心技术。
-
指令微调模型 :BLIP-2、Flamingo、LLaVA等模型通过指令微调,强化了开放域跨模态理解、细粒度接地(grounding)和多轮推理能力,能够更好地理解人类语言指令与视觉场景的关联,为VLA模型的“动作生成”环节奠定了跨模态理解基础。
现状:VLA模型的发展
从LLM/VLM到VLA模型的演进
随着LLM和VLM技术的成熟,研究自然地向“视觉-语言-动作”一体化方向推进。VLA模型将视觉感知、语言理解和可执行控制统一在单一序列建模框架中,其核心设计思路包括:
-
模态token化 :将图像(如通过ViT编码为视觉token)、语言指令(如通过LLM编码为文本token)、机器人状态(如关节角度、传感器反馈)和动作(如控制指令)均转换为统一的token格式。
-
自回归动作生成 :以视觉token、文本token和状态token为前缀或上下文,自回归生成动作token序列,最终解码为机器人可执行的控制指令,从而闭合“感知-语言-动作”循环。
与传统的“感知-规划-控制”分阶段流水线相比,VLA的优势在于:
-
端到端跨模态对齐,无需手动设计模态间的转换模块;
-
继承VLMs的语义泛化能力,能够理解模糊或开放域语言指令;
-
通过显式的状态耦合和动作生成,提升对环境干扰的鲁棒性和长任务执行能力。
这一演进路径——从单模态到多模态,再到“多模态+可执行控制”——为机器人“看见、理解并行动”提供了方法论基础。
数据与仿真的支撑作用
VLA模型在机器人领域的发展高度依赖高质量数据集和能够仿真真实场景复杂度的仿真平台,二者共同解决了深度学习驱动的机器人技术“数据稀缺”和“实机测试风险高”的核心问题:
(1)数据集:真实与通用的双重支撑
当前VLA模型多基于数据驱动,数据集的规模、多样性和标注质量直接决定模型性能:
-
真实世界数据集 :采集过程需大量人力和资金投入,但能反映真实环境的复杂性。例如:
-
互联网视频数据集 :为解决真实机器人数据稀缺问题,研究人员利用互联网上的大规模人类操作视频(如日常家务、工业装配视频)作为通用数据,为VLA模型提供辅助监督,提升对“人类动作-语言指令”关联的理解。
-
数据集挑战 :现有数据仍存在标注成本高、长尾场景(如罕见物体操作、突发环境变化)覆盖不足的问题,限制了VLA模型的泛化能力。
(2)仿真平台:安全与高效的测试环境
仿真平台通过生成大规模带标注数据、提供可控环境,成为VLA模型训练和评估的关键工具,其核心优势包括:
-
多样化环境与传感器配置 :支持自定义场景(如家庭、工厂、户外)和传感器(RGB-D相机、IMU、触觉传感器),仿真真实机器人的感知条件;
-
物理真实性 :通过精确的物理引擎(如MuJoCo的刚体动力学、Isaac Gym的GPU加速物理仿真)仿真物体碰撞、力反馈等物理交互,确保生成的“动作-效果”关联符合真实世界规律;
-
代表性平台 :
这些数据集和仿真平台共同缓解了真实机器人数据稀缺的问题,加速了VLA模型的训练、评估与迭代。
迈向通用具身智能
VLA模型处于视觉、语言、动作三大领域交叉的前沿,其核心目标是实现“通用具身智能”——即机器人不仅具备认知能力,还能通过物理身体与环境交互,适应多样化任务和场景。
通用具身智能的核心内涵
通用具身智能强调“身体-感知-反馈”的一体化,认为类人智能行为不仅依赖认知处理,还需结合物理身体的运动能力、环境感知能力和实时反馈机制。为适应不同任务需求,通用具身智能可通过多种机器人形态实现:
-
家庭场景的人形机器人、工业场景的灵巧操作机械臂、特殊场景的仿生机器人(如水下机器人、无人机)等。
-
这些机器人需在开放环境中自主理解任务(如“整理桌面”“修复设备”)、规划动作、应对突发变化,最终实现跨场景、跨任务的通用操作能力。
VLA模型的潜力与挑战
VLA模型通过整合视觉编码器的表征能力、LLM的推理能力、强化学习与控制框架的决策能力,有望弥合“感知-理解-动作”的鸿沟,成为实现通用具身智能的核心路径。目前,VLA已在视觉-语言-动作交互中取得显著进展,但仍面临以下挑战:
-
可扩展性 :现有模型难以适应大规模、多样化的真实场景(如从实验室到户外、从单一任务到多任务);
-
泛化性 :在训练数据未覆盖的场景(如未知物体、复杂光照)中,动作生成的准确性和安全性下降;
-
安全性 :实机部署时,模型可能因环境干扰或指令歧义生成危险动作(如碰撞人类或设备);
-
真实世界部署 :仿真环境与真实环境的差异(“仿真到现实差距”)导致模型在实机上的性能衰减。
尽管存在挑战,VLA仍被广泛认为是具身人工智能的关键前沿方向,其发展正逐步向通用具身智能的愿景迈进。
三、视觉-语言-动作(VLA)模型
近年来,得益于多模态表征学习、生成式建模和强化学习的进展,VLA模型实现了快速且系统性的发展。本章将梳理VLA的主要方法范式,包括自回归模型、扩散模型、强化学习模型,以及混合与专用设计,并分析各范式的核心创新、代表模型与局限性。
视觉-语言-动作研究中的自回归模型
自回归模型是VLA任务中序列生成的经典且高效范式。该类模型将动作序列视为时间依赖过程,基于历史上下文、感知输入和任务指令逐步生成动作。随着Transformer架构的发展,现代VLA系统已证明该范式的可扩展性和鲁棒性。
自回归通用VLA方法
通用VLA智能体的研究核心是将感知、任务指令和动作生成统一在自回归序列建模框架中,通过对多模态输入的token化,实现跨任务的逐步动作生成。其发展历程可概括为三个阶段:
-
早期统一token化 :Gato(2022)首次实现对异质模态(视觉、语言、状态、动作)的token化,通过单一Transformer架构进行联合训练,证明了“多模态统一建模”的可行性。
-
大规模真实数据训练 :RT-1(2022)基于13万条真实世界演示数据训练,通过FiLM(特征调制)实现多模态融合,提升了实机控制的准确性;RT-2(2023)在PaLM-E基础上扩展动作token,并融入网络级VLM知识,支持开放词汇表抓取(如“拿起红色杯子”);PaLM-E(2023)将预训练语言模型知识融入具身控制,可处理视觉问答(VQA)、导航、操作等多任务。
-
跨平台泛化与效率优化 :为解决“不同机器人形态适配”问题,Octo(2024)通过150万条视频数据训练开源跨机器人策略,支持无奖励模仿学习;LEO(2024)通过两阶段训练实现3D视觉-语言对齐与VLA微调;UniAct(2025)定义“通用原子动作”,解决跨机器人形态的异质性问题。同时,轻量化设计成为趋势:NORA(2025)采用FAST+tokenizer和97万条演示数据,构建轻量级开源VLA;RoboMM(2024)通过模态掩码实现多模态融合,在RoboData数据集上达到最优性能。
此外,近期研究还关注推理能力整合:OneTwoVLA(2025)设计自适应“系统1(快速反应)-系统2(深度推理)”机制,支持长任务规划和错误恢复;UP-VLA(2025)通过统一提示框架融合任务、视觉和动作信息,提升少样本性能。
目前,自回归通用VLA已从概念验证转向强调可扩展性、语义推理和部署效率的阶段,但在安全性、可解释性和人类价值观对齐方面仍存在未解决问题。

基于LLM的自回归推理与语义规划
LLM的融入使VLA系统从“被动输入解析器”转变为“语义中介”,支持长任务和组合任务的推理驱动控制。其发展可分为四个方向:
-
自对话推理 :Inner Monologue(2022)引入“动作前规划-动作后反思”的自对话推理循环,提升具身任务成功率;Instruct2Act(2023)设计“视觉-语言-任务脚本-动作”流水线,通过语义中介连接语言指令与动作生成;RoboFlamingo(2023)适配OpenFlamingo至机器人领域,实现VLM到VLA的高效迁移。
-
反馈与分层规划 :Interactive Language(2022)支持实时语言修正,允许人类在任务执行中调整指令;Hi Robot(2025)采用“粗到细”分层规划,处理长语言指令;Mobility VLA(2024)将长上下文VLM与导航结合,支持多模态指令跟随;NORA(2025)强调轻量化部署,适合资源受限场景。
-
分层控制与链推理 :DexGraspVLA(2025)结合VLM规划与扩散模型,实现鲁棒灵巧抓取;CoT-VLA(2025)引入视觉链推理(Visual Chain-of-Thought),通过预测目标提升长任务稳定性;HAMSTER(2025)利用域外数据训练分层VLA,增强泛化能力;InSpire(2025)通过空间推理提示减少虚假关联,提升推理可靠性。
-
平台化与规模化 :Gemini Robotics(2025)基于Gemini 2.0构建多任务具身推理平台;(2025)通过异质机器人数据训练,支持开放世界泛化;FAST(2025)设计变长动作token,提升长任务执行效率;LLaRA(2024)通过对话任务增强数据,提升VLM到VLA的迁移能力。
尽管该方向已从语义中介发展为交互式分层规划系统,但仍面临幻觉控制(生成与场景无关的推理结果)、多模态对齐稳定性、实时安全性等挑战。
自回归轨迹生成与视觉对齐建模
该方向通过自回归建模强化“感知-动作”映射,同时确保视觉-语言语义对齐,核心是基于多模态观测解码运动轨迹或控制token,为“指令跟随-动作执行”提供统一机制。
-
早期语言-轨迹映射 :LATTE(2022)首次证明直接将语言映射为运动轨迹的可行性,为后续多模态扩展奠定基础;VIMA(2023)通过语言、视觉、动作的统一token化,实现强跨任务泛化(主要在仿真环境中);InstructRL(2023)采用联合视觉-语言编码器与策略Transformer,提升模态对齐精度。
-
视频预测与世界建模 :GR-1(2024)、GR-2(2024)将视频生成预训练迁移至机器人领域,GR-2进一步融入网络级视频-语言监督,支持零样本操作;WorldVLA(2025)通过联合视觉-动作建模,缓解自回归误差累积问题;TraceVLA(2025)引入视觉轨迹提示(Visual Trace Prompting),捕捉长任务中的关键线索。
-
跨机器人形态适配 :Bi-VLA(2024)设计双臂预测器,支持协同双手机械操作;RoboNurse-VLA(2024)在医疗场景中实现高精度手术抓取;Moto(2025)通过“运动语言token”连接视频预训练与动作执行,提升模型迁移能力;OpenVLA(2024)发布70亿参数开源模型,基于97万条轨迹训练,性能超越RT-2-X,支持跨平台泛化。
-
多模态感知扩展 :VTLA(2025)融合视觉-触觉输入与偏好优化,在未知任务中的成功率超过90%;PointVLA(2025)将点云注入预训练VLA,实现轻量化3D推理;GraspVLA(2025)基于GraspVerse预训练GPT风格解码器,支持真实世界抓取迁移;OpenDriveVLA(2025)将2D/3D感知对齐到统一语义空间,生成自动驾驶轨迹。
该方向已从“语言-轨迹直接映射”发展为涵盖多模态预训练、视频驱动世界建模、跨形态适配的生态,但在长任务稳定性、噪声输入下的语义接地、实机部署效率方面仍需改进。
自回归VLA的结构优化与高效推理
为实现VLA模型的规模化部署和实时控制,研究聚焦于减少计算冗余、缩短推理延迟、保持跨场景鲁棒性,主要方向包括:
-
分层与模块化优化 :HiP(2023)将任务分解为符号规划、视频预测、动作执行三阶段,支持自回归模型的长任务推理;Actra(2024)通过轨迹注意力和可学习查询优化Transformer,降低计算开销;领域专用优化(如空间VLA的体素网格与空间注意力、VLA-Cache的自适应键值缓存)进一步减少冗余计算。
-
动态自适应推理 :DeeR-VLA(2024)基于任务复杂度实现解码早期终止,降低实时控制成本;FAST(2025)将长动作序列压缩为变长token,提升推理效率;BIT-VLA(2025)采用1位量化(1-bit quantization),将内存占用降至30%,同时保持性能。
-
轻量化压缩与并行化 :MoLe-VLA(2025)通过混合专家(Mixture-of-Experts)路由实现动态层跳过,降低40%计算成本;PD-VLA(2025)采用并行定点解码,无需重新训练即可加速推理;CLIPort(2021)分离“是什么(what)”和“在哪里(where)”路径,生成动作热力图,提升计算效率。
-
多模态推理与效率融合 :OTTER(2025)将语言感知注入视觉编码,增强模态对齐;ChatVLA(2025)通过专家路由和分阶段对齐实现规模化;LoHoVLA(2025)构建统一分层控制,支持超长任务闭环执行。
该方向已从早期分层分解发展为自适应计算、轻量化压缩、多模态感知融合的综合优化体系,为实机部署提供了关键技术支撑,但仍需进一步探索硬件感知协同优化和安全机制。
自回归模型的创新与局限
-
创新点 :通过Transformer架构统一多模态感知、语言推理和序列动作生成,支持跨任务泛化;融入LLM实现语义规划,扩展长任务处理能力;通过轨迹生成与视觉对齐,提升动作准确性;结构优化与量化技术降低部署成本。
-
局限 :自回归解码存在误差累积和延迟问题;多模态对齐在噪声输入下易失效;大规模模型训练需海量数据和计算资源;推理过程的幻觉、稳定性和可解释性不足;效率优化常以精度或泛化为代价。
视觉-语言-动作研究中的扩散模型
扩散模型(含流匹配、变分自编码器等)作为生成式AI的变革性范式,在VLA框架中展现出独特优势:通过将动作生成建模为“条件去噪过程”,实现概率性动作生成,支持从同一观测生成多种有效轨迹。本章从通用方法、多模态融合、应用部署三个维度梳理其发展。
扩散通用VLA方法
扩散模型在VLA中的核心突破是将机器人控制从“确定性回归”转变为“概率性生成”,其发展聚焦于表征结构丰富化和生成稳定性提升:
-
几何感知生成 :SE(3)-DiffusionFields(2023)将扩散模型扩展到SE(3)位姿空间,学习平滑代价函数,联合优化抓取与运动规划,确保动作的物理一致性;3D Diffuser Actor(2024)通过条件扩散嵌入3D场景信息,提升轨迹生成的空间合理性。
-
视频驱动生成 :UPDP(2023)将决策视为“视频生成”任务,以图像为交互接口、语言为指导,利用视频的时间连续性提升长任务规划能力;AVDC(2024)通过光流和运动重建,从无动作标签的视频中学习视觉运动策略;RDT-1B(2025)构建大规模扩散模型,通过时间条件建模支持双手机械操作的零样本泛化。
-
时间一致性优化 :TUDP(2025)通过跨时间步的统一扩散 velocity 场和动作判别机制,提升轨迹时间连贯性;CDP(2025)利用历史动作条件和缓存机制,减少动态环境中的动作抖动;DD VLA(2025)将动作分割为离散块,通过离散扩散和交叉熵训练提升生成效率。
该方向已实现从“确定性动作”到“概率性多轨迹生成”的转变,支持几何感知和时间一致的动作生成,但在动态环境中的轨迹稳定性仍需改进。
基于扩散的多模态架构融合
扩散模型与Transformer的结合是该方向的核心趋势——注意力机制天然适配生成式建模,而多模态融合则需解决“异质模态保留独特属性”的挑战:
-
大规模扩散Transformer :Dita(2025)构建可扩展扩散Transformer,直接对连续动作进行去噪;Diffusion Transformer Policy(2025)通过超大规模注意力架构(超小动作头设计),提升连续动作建模精度,自注意力的归纳偏置与机器人行为的组合性高度契合。
-
多模态token对齐 :M-DiT(2024)将视觉、语言、位置目标映射为统一多模态token,支持灵活的条件扩散生成;ForceVLA(2025)将6轴力传感视为一级模态,通过力感知混合专家(MoE)融合触觉-视觉-语言嵌入,提升接触密集型操作的准确性。
-
推理与扩散结合 :Diffusion-VLA(2025)引入“自生成推理”模块,生成符号化中间表示,连接语言推理与扩散动作生成;CogACT(2024)通过语义场景图整合感知、推理与控制,增强模型对任务逻辑的理解;PERIA(2024)联合微调多模态LLM与图像编辑模型,提升子目标规划能力。
-
预训练模型复用 :SuSIE(2023)复用预训练图像编辑扩散模型,通过生成目标图像实现零样本机器人操作;Chain-of-Affordance(2024)将任务解析为“序列可用性子目标”,显式建立“感知-动作”对,提升复杂环境中的任务分解能力;(2024)在“观测-理解-执行”循环中,将视频和语言编码为 latent token,支持端到端控制。
该方向已从“单一架构适配”发展为融合推理、多传感输入、预训练知识的认知启发框架,但计算成本高、数据集多样性不足仍是主要瓶颈。
扩散VLA的应用优化与部署
扩散模型的实机部署需解决效率、适应性和鲁棒性三大核心问题,近期研究呈现“智能稀疏化”“认知启发设计”“防御性AI”三大趋势:
-
效率优化 :TinyVLA(2025)通过LoRA微调(仅5%可训练参数)降低训练成本,支持单GPU训练;SmolVLA(2025)通过异步推理在消费级硬件上部署紧凑VLA;VQ-VLA(2025)采用向量量化tokenizer,缩小“仿真到现实”差距;OFT(2025)通过并行解码、动作分块和连续表征学习,优化微调效率。
-
任务适应性 :DexVLG(2025)在DexGraspNet上训练大规模抓取模型,支持灵巧手零样本抓取;AC-DiT(2025)通过多模态移动性条件适配扩散Transformer,支持移动操作;ObjectVLA(2025)无需人类演示即可实现开放世界物体操作;SwitchVLA(2025)基于状态-上下文信号建模“执行感知任务切换”,适应动态环境。
-
认知启发架构 :MinD(2025)整合低频视频预测(战略规划)与高频扩散策略(反应式控制);TriVLA(2025)分离视觉语言推理、动力学感知和策略学习模块,实现36Hz交互频率;Hume(2025)融合双系统价值引导推理与快速去噪,平衡精度与速度;DreamVLA(2025)通过自反思循环(含链推理、错误token、专家层)提升鲁棒性。
-
领域扩展与基础模型 :DriveMoE(2025)采用场景/动作专用混合专家架构,提升自动驾驶闭环控制性能;DreamGen(2025)生成神经轨迹,支持人形机器人学习新任务;EnerVerse(2025)通过自回归视频扩散预测具身未来;FP3(2025)构建大规模3D基础扩散策略,基于6万条轨迹预训练;GR00T N1(2025)将多模态Transformer整合为人形机器人基础模型。
-
鲁棒性提升 :BYOVLA(2025)在推理时动态编辑无关视觉区域,无需重训练即可增强鲁棒性;GEVRM(2025)基于文本引导视频生成,提升复杂场景中的操作可靠性;VidBot(2025)从单目视频中重建3D可用性(affordance),支持零样本操作。
该方向已从“实验室原型”转向“跨领域实用系统”,但在安全关键场景的可靠性、泛化到极端环境的能力方面仍需突破。
扩散模型的创新与局限
-
创新点 :将机器人控制重构为生成式问题,支持概率性动作生成;通过多模态融合增强场景理解;轻量化设计和认知启发架构提升部署可行性;在自动驾驶、人形机器人等领域实现专用适配。
-
局限 :动态环境中的时间连贯性差;大规模模型需海量数据和计算资源;安全关键场景的可靠性未充分验证;多模态融合可能稀释单模态优势;领域专用适配可能降低迁移性。
视觉-语言-动作研究中的强化学习微调模型
强化学习(RL)微调模型通过融合视觉-语言基础模型与强化学习算法,增强VLA的感知、推理和决策能力。该类模型利用视觉和语言输入生成上下文感知动作,在自动驾驶、机器人操作、具身AI等领域展现出优势,尤其擅长结合人类反馈、适应新任务,性能常超越纯监督范式。

VLA研究中的强化学习微调策略
强化学习在VLA中的应用聚焦于“奖励设计”“策略优化”“跨任务迁移”,其发展可分为以下方向:
-
自监督奖励与表征学习 :VIP(2023)从无动作视频中学习与动作无关的“目标条件价值函数”,通过嵌入距离隐式评估价值,生成平滑表征;LIV(2023)基于视觉预训练生成密集奖励函数,支持未知任务;PR2L(2024)融合VLM世界知识与RL,提升机器人操作的泛化性;ALGAE(2024)通过语言引导抽象解释RL驱动行为,增强可解释性。
-
跨模态奖励代理与人类反馈 :ELEMENTAL(2025)通过VLM语义映射从演示数据中学习奖励代理,支持复杂操作任务的快速定制;SafeVLA(2025)从安全角度优化VLA,引入“约束学习对齐机制”:通过安全评论网络(Safety Critic Network)估计风险水平,利用约束策略优化(CPO)框架在最大化奖励的同时,确保安全损失低于预设阈值,显著降低多任务(操作、导航、处理)中的风险事件,尤其适用于语言指令模糊的场景。
-
跨机器人形态适配 :NaVILA(2025)通过单阶段RL策略微调VLA,输出连续控制指令,适应复杂地形和动态语言指令;MoRE(2025)将多个低秩自适应模块作为“专家”融入密集多模态LLM,构建稀疏激活混合专家模型,以Q函数形式通过RL目标训练,提升四足机器人VLA的规模化能力;LeVERB(2025)设计分层VLA框架,将视觉-语言处理与动力学级动作处理耦合,通过RL将“潜在词汇”转换为高频动态控制指令,支持人形机器人全身控制(WBC)。
-
离线与在线RL融合 :ReinboT(2025)基于离线混合质量数据集,通过预测密集奖励捕捉任务差异,引导机器人生成长期收益最优的决策;SimpleVLA-RL(2025)仅用单条轨迹和二元(0/1)结果奖励训练,无需密集监督或大规模行为克隆数据,性能接近全轨迹监督微调(SFT);ConRFT(2025)结合离线行为克隆(BC)、Q学习(提取有限演示中的策略、稳定价值估计)与在线一致性目标(人工干预确保安全探索),平衡样本效率与策略安全性。
-
领域扩展与效率优化 :AutoVLA(2025)在自动驾驶领域引入自回归生成模型,通过“链推理微调”和“组相对策略优化”生成离散可行动作,重建连续轨迹;RPD(2025)通过RL蒸馏从VLA教师模型中学习学生模型,提升推理速度;RLRC(2025)通过“结构化剪枝-SFT+RL恢复-量化”的压缩框架,在降低内存占用、提升推理吞吐量的同时,保持原VLA的任务成功率。
强化学习模型的创新与局限
-
创新点 :利用视觉-语言信号生成可迁移的密集奖励代理;结合离线BC与在线RL稳定策略优化;引入安全约束降低开放环境风险;适配四足、人形、自动驾驶等多形态机器人,展现强通用性。
-
局限 :奖励工程常存在间接性或噪声,导致学习次优;监督微调与探索的相互作用影响训练稳定性;高维真实环境中的训练计算成本高;安全策略在对抗性指令下的泛化性不足。
其他先进研究方向
除自回归、扩散、强化学习三大基础范式外,VLA研究还涌现出融合多范式、增强多模态理解、适配专用领域、构建基础模型、优化实际部署的先进方向,进一步扩展了VLA的能力边界。
混合架构与多范式融合
针对复杂具身任务的多样性,混合架构通过组合多范式优势(如扩散的物理一致性、自回归的推理能力、RL的适应性),构建更灵活的VLA系统:
-
HybridVLA(2025)在70亿参数框架中统一扩散轨迹生成与自回归推理,兼顾动作平滑性与上下文理解;
-
RationalVLA(2025)通过 latent 嵌入连接高层推理与低层策略,过滤不可行指令,规划可执行动作;
-
OpenHelix(2025)通过大规模实证研究提供标准化混合VLA设计,含开源实现与设计指南;
-
Fast-in-Slow(2025)基于“双系统理论”,在慢节奏VLM骨干中嵌入低延迟执行模块,平衡实时响应与高层推理;
-
Transformer-based Diffusion Policy(2025)构建十亿参数架构,融合扩散与注意力机制,超越传统U-Net设计,捕捉更丰富的轨迹上下文依赖。
先进多模态融合与空间理解
该方向突破“简单特征拼接”,通过建模几何、可用性(affordance)和空间约束,提升VLA的3D场景理解与动作 grounding 能力:
-
CLIPort(2021)分离“what”(物体识别)与“where”(动作定位)路径,利用CLIP生成动作热力图,增强视觉-动作对齐;
-
VoxPoser(2023)通过LLM引导的可组合3D价值图,将指令解析为目标理解与体素空间动作规划;
-
3D-VLA(2024)通过生成式3D世界模型整合感知、语言与动作,实现3D场景中的连贯控制;
-
ReKep(2024)基于关系关键点图建模时空依赖,适用于精度敏感任务(如精密装配);
-
RoboPoint(2024)预测可用性地图作为规划先验,提升复杂场景中的动作可行性;
-
BridgeVLA(2025)将3D观测投影到多视角2D热力图,提升动作预测的样本效率;
-
GeoManip(2025)嵌入符号化几何约束,无需任务重训练即可泛化动作(如不同尺寸物体的抓取)。
专用领域适配与应用
VLA框架在安全关键、数字交互、人形控制等专用领域的适配,不仅验证了其通用性,也推动了领域特定技术创新:
-
自动驾驶 :CoVLA(2024)构建首个大规模自动驾驶VLA数据集,含5万条语言指令-轨迹对,支持导航与危险规避;AutoRT(2024)通过“观测-推理-执行”框架协调机器人集群,将PaLM-E、RT-2等VLM作为战略规划器;
-
GUI交互 :ShowUI(2024)将VLA应用于图形界面操作,处理点击、拖拽、表单填写等动作,在GUI-Bench上表现优异;
-
人形全身控制 :LeVERB(2025)通过“视觉-语言策略学习潜在动作词汇+RL控制层生成动力学指令”的双层设计,实现150+任务的鲁棒“仿真到现实”迁移;Helix(2024)通过单一统一策略网络,实现人形机器人操作、 locomotion 、跨机器人协作;
-
特殊任务 :CubeRobot(2025)采用“视觉链推理(VisionCoT)+记忆流”双循环设计,解决魔方还原任务,中低复杂度场景成功率接近100%;EAV-VLA(2025)设计对抗性补丁攻击,用于测试VLA的鲁棒性(如防止机器人被恶意指令误导);
-
移动操作 :MoManipVLA(2025)通过航点优化和双层运动规划,将固定基座VLA迁移至移动机器人(如自主导航+抓取)。
基础模型与大规模训练
基础模型通过海量多模态数据训练,为VLA提供“通用先验”,支持跨任务、跨形态泛化,是该方向的核心趋势:
-
大规模数据集 :DROID(2025)提供15万+轨迹数据,涵盖1000+物体和任务,含RGBD、语言、低维状态等多模态标注;ViSA-Flow(2025)从大规模人类-物体交互视频中提取语义动作流,预训练生成模型,下游机器人学习仅需少量适配;
-
训练策略优化 :Zhang等人(2024)通过2500次滚动实验,分析动作空间、策略头设计、监督信号等微调因素,提供基础VLA适配指南;Chen等人(2025)将链推理融入具身策略学习,推理速度提升3倍;
-
统一基础模型 :RoboBrain(2025)提出“感知-推理-规划”统一具身基础模型;VC-1(2024)通过4000+小时视频预训练(MAE初始化Transformer),探索数据规模对VLA性能的影响;CAST(2025)通过反事实语言和动作生成增强数据集多样性,提升模型鲁棒性。
实际部署:效率、安全与人机协作
VLA从研究走向应用,需解决实时推理、鲁棒性、人机交互三大核心问题,相关研究聚焦于“系统优化+安全机制+人类协同”:
(1)效率优化
-
推理加速 :EdgeVLA(2024)去除末端执行器预测的自回归依赖,采用紧凑LLM,推理速度提升6倍;DeeR-VLA(2024)基于置信度的早期退出机制,降低在线控制成本;CEED-VLA(2025)通过一致性蒸馏和早期退出解码,推理速度提升4倍,同时通过混合标签监督缓解误差累积;
-
轻量化设计 :RoboMamba(2024)采用轻量化多模态融合,适用于资源受限设备;BitVLA(2025)通过1位量化降低内存占用;MoLe-VLA(2025)动态跳过冗余层,降低40%计算成本;
-
部署适配 :RTC(2025)支持动作分块策略的异步平滑执行;cVLA(2025)通过2D航点预测提升“仿真到现实”迁移能力;ReVLA(2025)实现跨视觉领域(如室内/户外光照)的自适应,增强鲁棒性。
(2)安全与鲁棒性
-
故障检测 :SAFE(2025)利用VLA内部特征信号检测多任务故障,泛化至未知场景;
-
对抗性防御 :Cheng等人(2024)通过物理脆弱性评估程序(PVEP),发现VLA对 adversarial patches、字体攻击、分布偏移的脆弱性,推动鲁棒感知-控制 pipeline 研发;
-
可解释性 :Lu等人(2025)揭示VLA隐藏层中“物体-关系-动作”的符号化编码,为透明决策奠定基础;
-
自适应控制 :DyWA(2025)联合建模几何、状态、物理和动作,适应动态部分可观测环境。
(3)人机协作
-
人类反馈融合 :Xiang等人(2025)设计协作框架,将有限专家干预融入VLA决策,降低操作员工作量并丰富训练数据;
-
闭环交互 :Zhi等人(2025)结合GPT-4V感知与实时反馈控制,动态适应环境变化;
-
任务接地 :CrayonRobo(2025)通过物体中心提示实现可解释接地(如“拿起红色杯子”对应视觉中的红色区域);
-
技能复用 :历史感知策略学习(2022)和接地掩码方法(2025)支持任务分解与技能库构建,提升协作效率。
其他先进方向的创新与局限
-
创新点 :混合架构整合多范式优势;3D空间理解增强动作 grounding;专用领域适配拓展VLA应用边界;基础模型提供通用先验;部署优化解决实时性、安全性与协作问题。
-
局限 :混合系统计算成本高、可扩展性差;多模态融合在噪声输入下易失效;领域适配可能导致过拟合;基础模型需海量数据与计算资源;部署中的鲁棒性、可解释性仍需提升。
四、数据集与基准测试
与其他模仿学习方法类似,视觉-语言-动作(VLA)模型依赖高质量的标注数据集。这些数据集要么来自真实场景采集,要么通过仿真环境生成(数据集样本如图4所示)。通常,数据集包含多模态观测数据(如图像、激光雷达点云、惯性测量单元(IMU)数据等),以及对应的真值标签和语言指令。为便于系统理解,本文对现有数据集和基准测试进行分析,并提出一种分类方法——根据数据集的复杂度、模态类型和任务多样性对其进行分类。该分类方法为评估不同数据集对VLA研究的适用性提供了清晰框架,并指出了现有资源中可能存在的空白(代表性研究总结于表5)。


真实世界数据集与基准测试
高质量的真实世界数据集是开发可靠VLA算法的基础。近年来,研究人员已采集了大量高质量、多样化的真实世界机器人数据集,涵盖不同传感器模态、各类任务及多种环境场景。
具身机器人领域的真实世界数据集与基准测试
真实世界具身机器人数据集,指通过机器人在环境中进行感知与动作交互所获取的多模态数据集合。这类数据集专门用于捕捉视觉、听觉、本体感觉和触觉等多模态输入,与相应电机动作、任务意图及环境背景之间的复杂交互关系。它们是训练和评估具身人工智能模型的关键资源——具身人工智能的目标是让机器人在动态环境中通过闭环自适应行为完成任务。通过提供丰富且时间对齐的观测数据与动作数据,这些数据集为模仿学习、强化学习、视觉-语言-动作及机器人规划等领域的算法开发与基准测试提供了基础支持。
当前,具身机器人数据集面临显著的数据成本问题,因为真实世界机器人数据的大规模采集难度较大。采集真实世界机器人数据集面临诸多挑战:不仅需要硬件设备支持,还需实现精准操控。其中,MIME、RoboNet和MT-Opt已采集了涵盖从简单物体推动到复杂家居物品堆叠等多种任务的大规模机器人演示数据集。与以往数据集通常假设每个任务仅有一条最优轨迹不同,这些数据集针对同一任务提供了多个演示样本,并将测试轨迹间的最小距离作为评估指标。该方法极大推动了操纵任务与VLA任务的研究进展。
BridgeData提供了一个大规模跨领域机器人数据集,包含10个环境中的71项任务。实验表明,将该数据集与新领域中少量未见过的任务(如50项任务)联合训练,相比仅使用目标领域数据,任务成功率可提升一倍。因此,许多现代VLA方法均采用BridgeData进行模型训练。
在具身人工智能领域,模型的泛化能力常受限于真实世界机器人数据采集的多样性不足。RT-1提供了一个涵盖广泛真实世界机器人任务的数据集,以同时提升任务性能和对新场景的泛化能力。类似地,Bc-z包含了此前未见过的操纵任务,这些任务涉及同一场景中物体的新组合,为通用策略学习研究提供了支持。部分数据集还为具身人工智能提供了全面的软件平台与生态系统,涵盖手部操纵、移动、多任务处理、多智能体交互及基于肌肉控制等多种场景。
与早期研究相比,RoboHive填补了当前机器人学习能力与潜在发展空间之间的差距,支持强化学习、模仿学习、迁移学习等多种学习范式。值得注意的是,RH20T包含147项任务,涵盖110K个操纵任务片段,提供了视觉、力、音频和动作等多模态数据。每个任务片段均配有人类演示视频和语言描述,因此该数据集特别适用于单样本模仿学习,以及基于已有训练片段向新任务迁移策略的研究。
为推动更具泛化性的操纵策略开发,机器人领域需优先采集大规模、多样化的数据集,涵盖广泛的任务类型与环境场景。已有多个数据集通过多台机器人在不同地区协同采集而成,成为目前地理分布和场景多样性最高的具身机器人数据集之一。此外,Open X-Embodiment(OXE)整合了21家机构协作采集的22个机器人数据集,涵盖527项技能和160266个任务,并提供标准化数据格式,方便研究人员使用(上述数据集概述如表5(A)所示)。
在基准测试评估中,研究人员通常采用“成功率”(完成任务数量占总任务数量的比例)作为核心指标。部分研究还会额外采用“语言遵循率”,以评估模型理解和执行语言指令的能力。此外,近年来的VLA模型常通过将训练后的策略迁移到未见过的环境中进行测试,以衡量模型的鲁棒性和泛化性能。
自动驾驶领域的真实世界数据集与基准测试
自动驾驶数据集与具身机器人数据集存在差异,它是人工智能最具变革性的应用领域之一,其感知、规划和控制算法的训练与评估高度依赖大规模数据集。高质量数据集是开发鲁棒且通用的自动驾驶系统的基础,可支持监督学习、基准测试,以及对罕见或安全关键场景的仿真。过去十年间,研究人员已推出多个数据集,提供包含相机图像、激光雷达点云、雷达信号和高清地图在内的多模态传感器数据。这些数据集在地理覆盖范围、传感器配置、驾驶行为多样性和标注丰富度等方面差异显著,成为互补的研究与开发资源。
然而,大多数公开数据集是在开环场景下采集的,且主要反映正常驾驶行为,难以覆盖长尾边缘案例。为解决这一问题,近年来研究人员开始聚焦于生成合成数据、仿真闭环交互,以及构建针对罕见或安全关键事件的专用数据集。数据集设计的持续创新,对推动安全、可扩展且通用的自动驾驶系统发展至关重要。
在评估方面,自动驾驶VLA模型通常采用诸如“L2距离”(衡量与参考轨迹的偏差程度)和“完成率”(量化成功完成驾驶任务的比例)等指标。
仿真数据集与基准测试
为连续控制任务采集大规模真实世界数据面临显著挑战:这类任务需要人类标注者进行实时交互和持续反馈,且数据采集成本高、耗时长,难以实现规模化。而仿真数据则为获取大规模、高质量数据提供了可行途径——研究人员可利用虚拟化引擎生成的仿真数据,对具身机器人或自动驾驶模型进行训练与评估。
具身机器人领域的仿真数据集与基准测试
具身人工智能仿真数据集通常包含合成场景、基于物理的交互过程、导航标注、物体操纵标注、任务执行标注及智能体-环境动态关系数据。这些数据集支持对视觉导航、语义探索、复杂多步骤物体操纵等多种任务的基准测试与训练。典型示例包括Meta-World、RLBench、RoboGen等,它们在真实感、任务多样性和控制精度方面各有取舍。通过支持安全实验和大规模数据采集,仿真数据集为开发鲁棒且通用的具身智能体奠定了基础。随着领域发展,设计更丰富、更真实的仿真数据集(涵盖多样的智能体形态、任务类型和环境场景),仍是推动模型走向真实世界部署的关键。
ROBOTURK是一个用于高质量6自由度操纵状态与动作的仿真数据集,通过移动设备远程操作采集。与传统依赖远程用户在虚拟引擎中演示动作的方法不同,ROBOTURK利用策略学习生成具有不同奖励机制的多步骤机器人任务。通过聚合大量演示样本,该数据集为模型训练和评估提供了精准可靠的数据。
iGibson 0.5推出了一个用于训练和评估交互式导航方案的基准测试。该研究不仅提供了全新的实验仿真环境,还提出了专门的指标来评估导航过程中导航行为与物理交互的协同效果。该基准测试引入“交互式导航评分”,包含两个子指标:路径效率和能耗效率。其中,路径效率定义为“最短成功路径长度与机器人实际行驶路径长度的比值(乘以成功指示函数)”;能耗效率则衡量导航过程中所需的额外运动学和动力学能耗,反映物理交互的成本。
VIMA推出了名为VIMABENCH的新基准测试,建立了四级评估协议,以评估模型逐步提升的泛化能力——从物体随机放置场景到全新任务场景。类似地,CALVIN和Lota-Bench聚焦于利用多模态机器人传感器数据,在多样化操纵环境中学习长序列、语言条件下的任务。这些基准测试特别适合评估那些通过在大规模交互数据集上训练、并在新场景中测试以实现对未见过实体泛化的方法。此类基准测试的性能通常通过任务成功率来衡量(上述仿真数据集概述如表5(B)所示)。
自动驾驶领域的仿真数据集与基准测试
闭环仿真在确保自动驾驶系统安全性方面发挥关键作用:它能够生成真实世界中难以捕捉或存在危险的安全关键场景。尽管历史驾驶日志为构建新场景提供了宝贵资源,但闭环评估需要对原始传感器数据进行修改,以反映更新后的场景配置。例如,可能需要添加或移除交通参与者,且现有交通参与者和自车的轨迹可能与原始记录存在差异。
UniSim是一款神经传感器仿真器,可将单条记录轨迹扩展为多传感器闭环仿真。它通过构建神经特征网格来重建静态背景和动态交通参与者,并将二者合成,以仿真从新视角获取的激光雷达和相机数据,从而支持添加、移除或重新定位交通参与者。为更好地适应未见过的视角,UniSim还采用卷积网络对原始数据中不可见的区域进行补全。
与真实世界自动驾驶数据集不同,闭环仿真基准测试需要针对交互式驾驶任务设计专用评估指标。常用指标包括“行驶路线偏差”(衡量对规划轨迹的遵循程度)、“违规评分”(对交通规则违规行为进行惩罚)和“完成评分”(评估任务完成情况)。这些指标共同构成了对VLA模型在真实、安全关键驾驶场景中性能的全面评估。
讨论
创新点
本文提出了系统的分类方法、标准化评估指标,以及Open X-Embodiment(OXE)等大规模协作项目——OXE整合了来自多机构的数据集,可促进研究的可复现性和泛化性。这些贡献扩大了任务覆盖范围,丰富了模态组合类型,并提升了跨领域策略迁移能力,推动了具身人工智能研究的规模化发展。
局限性
然而,真实世界数据集的采集成本高、后勤难度大,且常局限于受控实验室环境,场景多样性有限;仿真数据集虽具备可扩展性和安全性,但仍难以完全捕捉真实世界交互的复杂性、噪声和不可预测性。此外,“成功率”“轨迹偏差”等基准测试指标,可能无法充分反映模型在语言接地、长序列推理或非结构化环境安全部署等方面的精细能力。要解决这些局限性,不仅需要扩大数据集的多样性和真实感,还需设计更丰富的评估协议,以更好地匹配真实世界自主系统的需求。
五、仿真器
机器人仿真器已成为在多样化交互环境中开发和评估智能机器人系统的必备工具。这类平台通常整合物理引擎、传感器模型(如RGB-D、IMU、激光雷达)和任务逻辑,支持导航、操纵、多模态指令遵循等多种任务。最先进的仿真器可提供具备照片级真实感、物理一致性的可扩展环境,用于通过强化学习、模仿学习或大规模预训练模型训练具身智能体。通过提供安全、可控且可复现的环境,具身仿真器加速了通用机器人智能的发展,同时大幅降低了真实世界实验相关的成本和风险。
THOR是一款仿真器,拥有接近照片级真实感的3D室内场景,人工智能智能体可在其中导航环境、与物体交互以完成任务。它支持模仿学习、强化学习、操纵规划、视觉问答、无监督表征学习、目标检测和语义分割等多个研究领域。与之不同,部分仿真器基于真实空间虚拟化构建(而非人工设计环境),涵盖数千座全尺寸建筑,其中的具身智能体需遵循真实的物理和空间约束。
Habitat及其升级版本Habitat 2.0进一步扩展了这一范式,提供可扩展的仿真平台,用于在具备物理交互能力的复杂3D环境中训练具身智能体。ALFRED推出了一个包含长序列、组合型任务的基准测试,这些任务涉及不可逆的状态变化,旨在缩小仿真基准测试与真实世界应用之间的差距。ALFRED同时提供高层目标和低层语言指令,与现有视觉-语言数据集相比,其任务在序列长度、动作空间和语言变异性方面的复杂度显著提升。
早期结合物理与机器人任务的仿真环境,往往聚焦于狭窄场景,且仅包含小规模简化场景。与之相反,iGibson 1.0和iGibson 2.0是开源仿真平台,支持在大规模真实环境中完成多样化家居任务。它们的场景是真实住宅的复制品,物体分布和布局与物理空间高度一致,从而提升了生态有效性,并缩小了仿真与真实世界机器人学习之间的差距。
先进的仿真器不仅支持多个智能体在同一环境中交互,还能提供丰富的传感器数据和物理输出。理想的仿真器应整合通用物理引擎、灵活的机器人仿真平台和高保真渲染系统,成为机器人仿真和生成模型评估的强大工具。
MuJoCo是一款被广泛采用的开源物理引擎,专为机器人及相关领域(需精准仿真)的研究与开发设计。近年来,基于GPU的仿真引擎逐渐流行,其中最具代表性的是NVIDIA Isaac Gym——它构建于Omniverse平台之上,可在物理真实的虚拟环境中实现对人工智能驱动机器人的大规模开发、仿真和测试。Isaac Gym在学术界和工业界的应用日益广泛,助力加速新型机器人工具的开发和现有系统的优化。
自动驾驶领域也面临类似挑战:大规模真实世界数据的采集和标注成本高、耗时长,且难以采集足够数据覆盖大量罕见边缘案例。为解决这一问题,研究人员开发了包含静态道路元素(如交叉路口、交通信号灯、建筑物)和动态交通参与者(如车辆、行人)的仿真器。CARLA和LGSVL利用游戏引擎渲染真实驾驶场景,支持灵活的传感器配置,并生成适用于驾驶策略训练与评估的信号。这些平台已成为推动自动驾驶研究的关键工具,可提供可控、可复现且经济高效的测试环境。
六、机器人硬件
机器人的物理结构是其实现感知、移动、操纵及与环境交互的基础。其核心组件通常包括传感器、执行器、动力系统和控制单元。其中,传感器(如相机、激光雷达、惯性测量单元和触觉阵列)负责采集外部环境及机器人内部状态的关键信息;执行器(包括电机、伺服电机或液压系统)则将控制信号转化为物理动作,从而实现移动、物体操纵等任务;控制单元一般基于嵌入式处理器或微控制器,作为计算核心整合传感器输入并向执行器下达指令;动力系统通常以电池或外部能源的形式,为机器人的持续运行提供能量支持。
为满足不同应用领域(如工业自动化、服务机器人和自动驾驶)的任务特定需求,硬件设计需在性能、能效、重量和耐用性之间实现平衡。
七、挑战与未来方向
视觉-语言-动作(VLA)模型的挑战
本节总结了推进VLA模型发展过程中面临的开放性挑战与未来方向。尽管近年来VLA模型取得了显著进展,但在发展过程中也逐渐暴露出关键瓶颈。最根本的问题在于,当前的VLA系统大多基于大规模语言模型(LLM)或视觉-语言模型(VLM)的迁移学习构建而成。这些模型虽在语义理解和跨模态对齐方面表现出色,却缺乏与物理世界交互的直接训练和经验。因此,VLA系统在真实环境中常出现“理解指令但无法执行任务”的现象,这反映了一个核心矛盾:语义层面的泛化能力与物理世界中的具身能力相互脱节。如何实现从非具身知识到具身智能的转化,真正弥合语义推理与物理执行之间的鸿沟,仍是当前面临的核心挑战。具体而言,这一矛盾主要体现在以下几个方面:
机器人数据稀缺
机器人交互数据是决定VLA模型性能的关键资源,但现有数据集在规模和多样性上仍存在不足。在真实世界中,跨大量任务和环境收集大规模演示数据受到硬件成本、实验效率和安全问题的限制。现有开源数据集(如Open X-Embodiment)虽推动了机器人学习的发展,但主要集中于桌面操纵和物体抓取任务,任务与环境的多样性不足,严重限制了模型对新场景和复杂任务的泛化能力。
仿真平台(如RLBench)虽能以较低成本生成大规模轨迹数据,但受限于渲染保真度、物理引擎精度和任务建模能力。即便采用域随机化或风格迁移等技术,“虚实差距”(sim-to-real gap)依然存在,许多模型在仿真环境中表现优异,但部署到物理机器人上时却无法正常工作。因此,如何在扩大规模的同时提升机器人数据的多样性和真实性,仍是缓解模型泛化能力不足的首要挑战。
架构异质性
大多数VLA模型尝试对视觉、语言和动作进行端到端建模,但其实现过程中存在明显的架构异质性。一方面,不同研究采用的骨干网络各不相同:视觉编码器可能依赖ViT、DINOv2或SigLIP,语言骨干网络可能基于PaLM、LLaMA或Qwen,而动作头则可能采用离散令牌化、连续控制向量甚至基于扩散的生成方式。这种架构多样性阻碍了模型间的比较与复用,延缓了统一标准的形成。
另一方面,模型内部的感知、推理和控制模块往往耦合松散,导致特征空间碎片化,在不同平台或任务领域间的可移植性较差。部分模型虽在跨任务语言理解方面表现突出,但与底层控制器对接时仍需大量适配工作。这种架构异质性增加了系统集成的复杂性,严重制约了VLA模型的泛化能力和可扩展性。
实时推理约束与成本
当前VLA模型严重依赖大规模Transformer架构和自回归解码机制,这极大地限制了其在实体机器人上的推理速度和执行效率。由于每个动作令牌的生成都依赖于前一个令牌,延迟会不断累积;而动态抓取、移动导航等高频任务则需要毫秒级的响应速度。此外,高维视觉输入和庞大的参数规模带来了极高的计算与内存成本,许多最先进的VLA模型所需的GPU内存远超普通嵌入式平台的承载能力。
即便采用量化、压缩或边-云协同推理等技术,仍难以在精度、实时性和低成本之间实现平衡。这种推理约束与硬件瓶颈的叠加,使得VLA模型的部署陷入“速度过慢”与“成本过高”的两难境地。
人机交互中的伪交互
在人机交互场景中,VLA系统生成动作时往往依赖先验知识或静态训练模式,而非基于环境动态和因果推理的真实交互。当遇到陌生场景或状态变化时,模型通常依赖从数据中学习到的统计相关性,而非通过探测环境或利用传感器反馈来调整动作。这种因果推理能力的缺失,导致VLA系统虽看似能遵循指令,却无法在环境状态与动作结果之间建立真正的因果链,进而难以适应动态环境。
这种“伪交互”现象凸显了VLA模型在因果建模和反馈利用方面的不足,仍是实现具身智能的关键障碍。
评估与基准局限
VLA模型的评估体系同样存在局限。现有基准测试大多设置在实验室或高度结构化的仿真环境中,聚焦于桌面操纵或物体抓取等任务。这类任务虽能衡量模型在特定数据分布下的性能,却无法反映其在开放世界场景中的泛化能力和鲁棒性。一旦将模型部署到户外、工业或复杂家庭环境中,性能往往会大幅下降,暴露出评估体系与真实世界应用需求之间的差距。
这种狭窄的评估范围不仅阻碍了对VLA模型可行性的全面评估,也限制了模型间的横向比较。缺乏统一、权威且多样化的基准测试,正逐渐成为VLA模型向真实世界应用推进的主要瓶颈。
需要注意的是,上述五个方面虽凸显了VLA模型在数据、架构、交互和评估方面的关键不足,但并未涵盖该领域面临的所有挑战。从更长远的角度来看,VLA系统能否真正实现可控性、可信性和安全性,仍是一个核心问题。换言之,VLA的未来发展不仅需要解决性能和泛化问题,还需应对智能体安全部署的深层挑战。这一转变意味着研究人员必须超越单纯的模型优化,推动整个领域的范式革新,以应对长期挑战。
视觉-语言-动作(VLA)模型的机遇
尽管面临严峻挑战,VLA模型的未来仍充满机遇。作为连接语言、感知与动作的关键桥梁,VLA有望突破语义-物理鸿沟,成为实现具身智能的核心路径。克服当前瓶颈不仅可能重塑机器人研究的范式,还能使VLA模型处于真实世界部署的前沿位置。
世界建模与跨模态统一
目前,VLA系统中的语言、视觉和动作仍处于松散耦合状态,这使得模型局限于“指令生成”,而非对世界的整体理解。若能实现真正的跨模态统一,VLA模型将能够在单一令牌流中联合建模环境、推理过程和交互行为。这种统一结构将使VLA进化为“原型世界模型”,让机器人能够完成从语义理解到物理执行的闭环。这不仅是一项技术突破,更将是迈向通用人工智能的关键一步。
因果推理与真实交互突破
现有大多数VLA模型依赖静态数据分布和表面相关性,缺乏基于因果规律的交互能力。它们通过从先验模式中推测来“仿真交互”,而非通过探测环境并利用反馈更新策略。未来,若VLA模型能融入因果建模与交互推理能力,机器人将学会主动探测、验证和调整策略,实现与动态环境的真实“对话”。这一突破将克服“伪交互”问题,标志着智能体从数据驱动智能向深度交互智能的转变。
虚实融合与大规模数据生成
数据稀缺虽是当前的关键局限,但也孕育着巨大机遇。若能通过高保真仿真、合成数据生成和多机器人数据共享,构建虚实融合的数据生态系统,将有可能建立包含数万亿条跨任务轨迹的数据集。正如GPT模型借助互联网规模的语料库实现语言智能的飞跃,此类数据生态系统也可能推动具身智能的跨越式发展,使VLA模型能够在开放世界场景中稳定运行。
社会嵌入与可信生态
VLA模型的终极价值不仅体现在技术能力上,更在于其社会融入度。随着VLA模型进入公共和家庭空间,安全性、可信性和伦理一致性将决定其能否被广泛接受。建立风险评估、可解释性和问责制的标准化框架,将使VLA模型从实验室成果转变为可信的合作伙伴。一旦实现社会嵌入,VLA有望成为下一代人机交互界面,重塑医疗、工业、教育和服务等多个领域。这种社会嵌入不仅是技术落地的里程碑,更是前沿研究转化为真实世界变革力量的重要机遇。
八、结论
近年来,视觉-语言-动作(VLA)模型的研究进展显著,将视觉语言模型的泛化能力扩展到机器人应用领域,包括具身智能、自动驾驶和各类操纵任务。本综述通过分析VLA方法的动机、方法论和应用,系统梳理了该领域的发展脉络;同时提供了统一的架构分类体系,并分析了超过300篇相关文献及支持材料。
首先,本综述根据自回归模型、扩散模型、强化学习、混合结构和效率优化技术,对VLA架构的创新成果进行了分类;随后,探讨了支持VLA模型训练与评估的数据集、基准测试和仿真平台;基于上述全面综述,进一步分析了现有方法的优势与不足,并指出了未来研究的潜在方向。
这些见解共同构成了一份综合参考资料和前瞻性路线图,可为开发可信、持续演进的VLA模型提供指导,进而推动机器人系统中通用人工智能的发展。
参考
[1]Pure Vision Language Action (VLA) Models: A Comprehensive Survey
加微信,进群深度交流理想实际经营情况与长期基本面。不是技术群,不是车友群。
