Vision-Language-Action,VLA,是 LLM/VLM 路线进入机器人之后最自然的形态:模型看见图像,读懂指令,然后输出动作。RT-2、OpenVLA、π0、FAST 这一串工作证明,大规模视觉语言预训练确实能把语义知识迁移到机器人控制里。

但从 LeCun 的标准看,VLA 还不是完整答案。它解决了一部分“语言如何接到动作”的问题,却没有彻底解决“系统如何预测行动后果、如何在内部比较多个未来、如何从失败中更新世界模型”的问题。

这篇把 VLA 放到 LeCun 的世界模型路线里看:它很重要,但更像 actor、接口或快速反应层,不像具身 AGI 的中枢。

系列总纲见:LeCun 关于 LLM 与 AGI 的观点总集成

VLA 为什么突然重要

机器人长期有一个老问题:低层控制可以很强,但语义泛化很弱。传统机器人系统可以把一个固定零件从固定位置抓到固定盒子里,却很难理解“把苹果放到数字 3 上”“拿起能当锤子的东西”“把桌面收拾干净”这种开放语言指令。

大规模 VLM 改变了这件事。互联网图文数据里包含大量对象、属性、关系、用途和场景知识。VLA 的基本想法是,把这些视觉语言知识和机器人轨迹数据接在一起,让模型既懂“这是什么”,也能输出“下一步怎么动”。

粗略写成接口,就是:

1
image + language instruction -> robot action

这个接口非常诱人。它把感知、语言理解、语义推理和动作生成放进一个端到端模型里。工程上少了许多手写模块,也让机器人有机会继承 web-scale pretraining 的知识。

RT-2:把动作当成 token

RT-2 是 VLA 路线的标志性起点之一。它把机器人动作编码成文本 token,让视觉语言模型在同一套序列建模框架里同时处理自然语言输出和机器人动作输出。

这个设计的价值很清楚:模型不再只从机器人数据里学动作,还能从互联网规模视觉语言数据里学语义。RT-2 论文展示了许多有代表性的泛化:识别训练中没直接出现过的物体,根据符号或数字执行指令,甚至用 chain-of-thought 式中间推理处理一些多阶段语义任务。

最重要的迁移,不是模型突然懂了物理,而是它把 web knowledge 变成了机器人策略的条件。机器人不只看像素,还能利用“苹果是一种水果”“石头可以当临时锤子”“能量饮料适合疲惫的人”这类语义关联。

RT-2 的边界也在这里。它的 physical skills 仍然受机器人训练数据里的技能分布限制。模型可以理解“把苹果放到数字 3 上”,不等于它已经理解摩擦、重心、接触动力学、夹爪误差和物体形变。动作 token 化让机器人动作进入语言模型框架,但没有自动产生动作条件世界模型。

OpenVLA:开源和规模化示范

OpenVLA 的意义不只是又一个 VLA,而是把这条路线开放出来。它是 7B 参数的开源 VLA,使用 97 万条真实机器人示范训练,目标是让研究者能系统研究、微调和部署 VLA,而不是只看闭源系统 demo。

OpenVLA 继承了 VLA 的核心优点:输入图像和语言,输出动作;利用预训练 VLM 的语义能力;通过大规模机器人数据获得跨任务策略。它也把问题暴露得更清楚:VLA 的能力高度依赖示范分布、动作空间、机器人平台和微调方式。

对于 LeCun 路线,OpenVLA 的启发在于:大规模机器人示范确实能显著改善动作策略,但示范学习不等于世界建模。模型学到的是“在类似观察和指令下,示范里常出现什么动作”。这是一种强 policy prior,却未必能回答“如果换一个动作,会发生什么”。

π0:连续动作和灵巧控制

RT-2 和 OpenVLA 这类方法常把动作离散成 token。离散化让动作进入 Transformer 序列模型,但机器人控制本质上是连续、高频、多自由度的。动作 token 过粗,会损失精度;token 序列太长,又会增加训练和推理压力。

π0 试图从另一边解决问题。它把预训练 VLM 接到 flow matching action head 上,直接输出连续动作轨迹,用来处理更复杂、更灵巧的任务,比如叠衣服、整理桌面、装盒子、多机器人平台操作。

这个方向很重要,因为具身智能不只是“知道该做什么”,还要“动作足够细”。语言模型可以说“把衣服叠好”,但衣服是柔性物体,控制过程充满接触、褶皱、遮挡和局部失败。连续动作建模比把每个关节分箱成 token 更适合这类任务。

但 π0 主要解决的是 action decoder 和 generalist robot policy 问题。它让 VLA 更适合连续控制,不自动补上显式 world model。系统能输出动作,不等于它能在内部模拟多个候选动作的后果。

FAST:动作 token 化不是小细节

FAST 论文指出,动作 tokenization 对 VLA 极其重要。常见的逐维、逐时间步分箱,在高频灵巧技能上表现很差。机器人动作不是文本 token。一个动作序列有频率、平滑性、关节耦合和动力学约束,直接离散化会破坏结构。

FAST 用离散余弦变换等压缩思路,把动作序列放到频域里 token 化,减少序列长度,保留更有意义的动作结构。FAST+ 还被训练成通用机器人动作 tokenizer,可以作为黑盒组件服务不同动作空间和控制频率。

这件事对 LeCun 观点有一个旁证:把所有东西都塞进 token 序列,并不自然。语言 token 的成功不意味着动作也该照搬语言 token 化。动作有自身几何和动力学结构,需要专门归纳偏置。

如果机器人动作都需要这样的结构处理,那么“把世界全部转成 token 再续写”更难成为唯一主路线。

VLA 的五个边界

从 LeCun 的标准看,VLA 至少有五个边界。

第一,缺少显式预测环。典型 VLA 接口是:

1
image + instruction -> action

世界模型接口则更像:

1
state + candidate action -> predicted future state -> cost -> selected action

前者直接给动作,后者先预测动作后果,再比较候选未来。VLA 更像熟练反射,world-model-based planner 更像内部试错。

第二,受示范分布限制。VLA 的动作能力来自机器人数据。没有见过的接触动力学、材质、工具、失败模式和平台差异,都可能让策略出界。语义泛化可以强,物理技能泛化仍然硬。

第三,长程规划容易外包给语言。VLA 可以执行一个短指令,也可以由上层 LLM/VLM 分解任务。但如果系统内部没有可滚动的状态转移模型,长程任务就会变成“语言计划 + 反应式控制”。真实环境每一步都会改变下一步可行空间,语言计划必须持续被状态模型校正。

第四,失败解释不够深。抓取失败后,VLA 可以重新看图并输出另一个动作。但如果它没有预测“失败是因为夹爪偏了、摩擦太小、物体被遮挡还是目标不可达”,修复就更像重新采样策略,而不是因果诊断。

第五,目标函数仍偏模仿。示范学习回答的是“专家在类似状态下怎么做”。规划需要回答“哪个动作会把未来推向目标”。两者可以结合,但不是同一件事。

世界模型怎样补 VLA

一个更接近 LeCun 路线的机器人系统,可以把 VLA 和 world model 分工:

1
2
3
4
5
6
VLM / LLM: understand instruction, propose subgoals
VLA actor: generate candidate actions or fast reflexes
world model: predict future latent states under candidate actions
cost module: compare goal distance, risk, constraints
planner: choose and replan
memory: keep task state and failure history

这里 VLA 不是被否定,而是换了位置。它可以是 actor,也可以是 candidate generator。它负责把视觉语言语义转成动作建议;世界模型负责评估这些动作会怎样改变状态;planner 负责选择;真实反馈负责校正。

这样的系统比纯 VLA 更复杂,但具身任务本来就复杂。一个会长期行动的机器人不能只靠一次 forward pass。它要不断看、预测、试探、修正、恢复。

V-JEPA 2-AC 与 VLA 的差异

V-JEPA 2-AC 和 VLA 的对比很有代表性。

VLA 路线通常直接学习:

1
observation + instruction -> action

V-JEPA 2-AC 则更接近:

1
2
observation + candidate action -> predicted future representation
predicted future representation + image goal -> planning score

这不是说 V-JEPA 2-AC 已经比 VLA 全面更强,而是目标函数不同。VLA 训练一个策略,V-JEPA 2-AC 训练一个动作条件预测器。前者问“该做什么”,后者问“这么做会怎样”。LeCun 押的是后一个问题,因为它更适合规划和反事实推演。

一个成熟系统可能需要二者结合。VLA 给候选动作和语义先验,JEPA/world model 预测动作后果,planner 根据目标和成本函数选择。这样既不丢掉 LLM/VLM 的语义优势,也不把行动能力完全交给示范模仿。

具身智能不是“接上机器人”

“具身智能”这个词也容易被说轻。把 LLM 接到机械臂上,不等于模型理解了身体和世界。身体意味着约束:关节范围、速度、力、接触、摩擦、可达空间、传感器噪声、时间延迟、失败恢复。世界意味着约束:对象永久性、遮挡、重力、材料、因果和多主体互动。

VLA 把语言和动作接起来,是巨大进展。但具身智能还要求系统把动作结果变成学习信号。一次抓取失败不该只是“再试一次”,而应该改变系统对物体、环境和自身控制误差的估计。

LeCun 与很多 LLM-agent 路线的分歧在这里:agent 不应只是“LLM + 工具 + 环境”。工具让 LLM 能做事,但世界模型让系统知道事情会怎样变化。没有后者,agent 很容易停在脚本式行动和事后纠错。

VLA 何时足够,何时不够

不是所有任务都需要完整世界模型。很多机器人场景里,VLA 已经足够好。

如果任务短、环境固定、失败代价低、动作空间有限、示范数据丰富,直接 policy 可能比复杂 planner 更划算。仓储里的标准抓取、固定工位装配、室内服务机器人的简单取放,都可以先靠 VLA 或 diffusion policy 解决大部分问题。

世界模型更适合另一类任务:环境变化大,动作后果难直接模仿,失败代价高,需要长程规划,需要解释失败,需要少量数据迁移,需要内部模拟减少真实试错。自动驾驶、家庭机器人、科学实验自动化、灾害环境机器人,都更接近这类。

因此,VLA 与 world model 不是互斥路线,而是不同层级。VLA 能解决很多动作生成问题;world model 解决动作后果和规划问题。

对 AGI 争论的含义

VLA 的出现会让 LLM 支持者更有信心:语言模型不再只会说,它们可以通过视觉和动作进入物理世界。这个判断有道理。LLM/VLM 的语义知识确实能变成机器人能力。

但 VLA 也反过来支持 LeCun 的批评。因为一旦进入机器人,问题马上从“语言是否流畅”变成“动作是否改变世界”。动作 token 化、连续控制、示范分布、接触动力学、失败恢复、状态估计,这些问题都不是靠扩大文本语料自然解决的。

如果未来最强机器人系统需要 VLA、世界模型、仿真、MPC、记忆、成本函数和真实反馈共同工作,那么“LLM scaling alone”就更不像完整路线。LLM/VLM 是关键部件,但具身智能的中心仍然会向状态预测和行动闭环移动。

小结

VLA 是 LLM 进入机器人世界的重要桥。RT-2 证明 web-scale 视觉语言知识可以迁移到动作,OpenVLA 让研究社区能开放研究这条路线,π0 和 FAST 进一步处理连续动作和高频灵巧控制。

但 LeCun 的标准更硬:智能体不只要输出动作,还要预测动作后果;不只要模仿示范,还要在内部比较候选未来;不只要失败后重试,还要解释失败并更新状态模型。

所以,VLA 不是错路。它更像未来具身系统里的 actor、语言接口和快速反应层。LeCun 要补的是 VLA 下方那块更难的东西:动作条件世界模型,以及围绕它形成的规划、记忆和持续学习闭环。

参考资料