LeCun 对 LLM 的批评,如果只读成“语言模型不够好”,会漏掉最重要的一半。他真正想推的是另一套智能体架构:系统不以文本续写为中心,而以世界模型为中心;不以生成逼真的表面为目标,而以预测行动相关的未来状态为目标;不靠一句话计划模拟智能,而靠内部模型、成本函数、记忆和动作选择形成闭环。

JEPA,Joint Embedding Predictive Architecture,正是这套路线里最有 LeCun 个人印记的技术部件。它的目标不是替代所有生成模型,也不是给“世界模型”注册一个新名字。它是在回答一个更窄的问题:如果世界本身充满高熵细节,智能体怎样学习那些对行动和规划真正有用的结构。

系列总纲见:LeCun 关于 LLM 与 AGI 的观点总集成

世界模型不是视频生成器

“世界模型”这个词很容易被误读。近几年许多系统能根据文本生成视频、三维场景或交互环境,于是“world model”常被理解成“能生成一个看起来像世界的东西”。这只是其中一种可能形态,不是 LeCun 关心的核心。

LeCun 语境里的 world model,功能更接近 model-based control 里的内部动力学模型:给定当前状态和候选动作,预测未来状态会怎样变化。它不一定生成完整像素,不一定输出自然语言,也不一定能渲染一段漂亮视频。它必须能服务三件事:

  • 预测:状态、对象、关系、运动和约束会怎样演化。
  • 反事实:如果动作换成另一种,未来会怎样不同。
  • 规划:比较多个候选未来,选择成本更低的行动。

这和“生成逼真画面”差别很大。一个模型可能生成非常真实的视频,却不知道视频里某个动作为什么导致杯子掉落;也可能不知道换一个动作之后杯子会不会留下。相反,一个 latent model 可能不生成任何像素,但能稳定预测“推杯子会让它靠近桌沿”“再推会让它失去支撑”“扶住杯沿能降低跌落风险”。后者更接近 LeCun 想要的世界模型。

为什么原始空间太重

传统生成式学习的直觉很自然:把输入的一部分遮住,让模型把它补出来;给前面的 token,让模型预测下一个 token;给前几帧视频,让模型生成下一帧。问题是,原始观测空间的信息量太大,而且大量信息与行动无关。

一段视频里,下一秒有很多合法未来。树叶如何抖、布料纹理如何褶皱、反光落在哪个像素、背景噪声怎样变化,都是高熵细节。像素级预测如果用均方误差,多个合法未来会平均成模糊图像;如果用生成式采样覆盖细节,就要把计算预算花在“看起来合理”的微观变化上。

语言也有类似问题。同一层意思可以有许多表述方式。token prediction 必须同时学习事实、格式、语气、风格、句法、语料偏见和用户期望。它很强,但训练目标仍然是“生成一个概率上合理的续写”。这个目标可以学到知识,却没有直接要求模型形成可行动的状态空间。

LeCun 的判断是:智能体不该把主要预算花在复原所有表面细节上。行动需要的是压缩后的结构,比如对象还在不在、接触是否发生、支撑关系是否稳定、路径是否可达、候选动作会不会造成不可逆后果。

JEPA 的核心动作

JEPA 的基本动作很简单:不在原始空间里预测,而在表征空间里预测。

1
2
3
observation -> encoder -> representation
context representation -> predictor -> target representation
prediction loss: predicted representation ~= encoded target representation

在图像里,目标可能是被遮住的区域;在视频里,目标可能是未来片段;在行动条件模型里,目标可能是执行某个动作后的未来 latent state。模型比较的是预测表征和目标表征是否兼容,而不是像素、token 或波形是否逐项对齐。

这个设计允许模型丢掉不可预测、也不重要的细节。一个杯子的材质纹理可以不完整,桌面反光可以不精确,背景窗帘的轻微抖动可以被忽略。但杯子作为对象、杯子和桌沿的关系、推力方向、接触变化、跌落风险,这些变量必须被保留。

JEPA 的野心不在“压缩率更高”,而在“压缩后还保留行动所需的因果结构”。这也是它和普通 representation learning 的区别。普通表征可以只为分类或检索服务;LeCun 要的是能进入预测和规划回路的表征。

Objective-driven architecture

LeCun 在 2022 年的路线图里,把未来智能体画成一个 objective-driven architecture。粗略拆开,它包含几类模块:

  • perception:把外部观测编码成内部状态。
  • world model:预测状态如何随时间和动作变化。
  • short-term memory:保存当前任务相关状态。
  • cost module:评估候选未来的风险、约束和目标距离。
  • actor / planner:选择动作,必要时在内部模型里滚动多个未来。
  • configurator:根据任务配置其他模块的工作方式。

JEPA 主要落在 perception 和 world model 之间。它让系统学到一个适合预测的 latent space,再让 predictor 在这个空间里处理缺失、未来和动作条件。成本函数和 planner 则把预测结果变成行动选择。

可以把这套路线写成一个小循环:

1
2
3
4
5
observation -> encoder -> latent state
latent state + candidate action -> world model -> future latent state
future latent state -> cost module -> expected cost
planner / actor -> selected action
feedback -> memory / model update

这和 LLM 写计划有本质差异。LLM 生成计划文本,是在语言分布里延续一段看起来合理的步骤。objective-driven system 的规划,是在内部状态空间里比较候选未来的代价。前者可能很有用,特别适合和人沟通;后者才直接面对行动后果。

I-JEPA:从图像补全到表征预测

I-JEPA 是这条路线的早期公开样板。它处理图像,但不要求模型复原被遮住区域的像素。模型看见图像的一部分,把上下文编码成表征,再预测目标区域的表征。

这个目标和 MAE、扩散式图像补全、传统 masked modeling 的差别在于:I-JEPA 不把“补出逼真图像”作为任务。它鼓励模型学习高层语义和空间结构,而不是复原每个局部纹理。Meta 当时把 I-JEPA 放在 LeCun 的“更像人类的 AI”愿景里,不是因为它已经具备行动能力,而是因为它展示了一个方向:世界知识可以通过预测抽象状态获得,而不必通过生成所有表面细节获得。

I-JEPA 的限制也明显。静态图像没有动作,没有时间展开,也没有反馈闭环。它能说明“表征空间预测”有价值,却还不能说明“智能体能规划”。

V-JEPA:时间、运动和遮挡

V-JEPA 把 JEPA 从图像推到视频。视频带来更多世界结构:对象连续存在,运动有惯性,遮挡会发生,接触会改变状态,事件有先后顺序。一个能在视频里预测缺失片段表征的模型,至少开始面对物理世界的时间结构。

V-JEPA 仍然是非生成式的。它不生成未来帧,不渲染像素,而是在 latent space 中预测被遮住的时空区域。这一点和 LeCun 的主张完全一致:世界模型不必把所有候选未来都画出来,只要保留对行动和判断有用的结构。

V-JEPA 的强项是 sample efficiency 和高层表征。Meta 报告里强调,它相对像素级重建路线更高效,因为模型没有被迫学习所有低层细节。但它也还不是完整行动模型。没有动作条件时,模型学习的是世界“通常如何演化”,而不是“某个动作会怎样改变世界”。

V-JEPA 2:动作条件世界模型的关键一步

V-JEPA 2 的重要性在于,它把视频自监督和机器人规划接了起来。论文里的训练结构值得单独拎出来:

  • actionless pre-training:使用超过一百万小时视频和一百万张图像学习视觉世界表征。
  • action-conditioned training:使用不到 62 小时的机器人视频,让 predictor 学会在候选动作条件下预测未来表征。
  • model-predictive control:部署时给定图像目标,在内部滚动候选动作,选择更可能接近目标的动作。

这个组合非常 LeCun。大部分世界知识来自观察,不需要每一步都靠机器人试错;少量交互数据把观察学到的表征接到行动条件预测上;规划时不是让语言模型写一串动作,而是在 latent space 中模拟动作后果。

V-JEPA 2-AC 在两个实验室的 Franka 机械臂上做 zero-shot pick-and-place,是这条路线最有说服力的演示之一。它不需要在目标部署环境重新采集数据,也不需要任务特定 reward,而是用图像目标和内部预测完成抓取放置。这个结果还不能外推到开放世界机器人,但它说明 JEPA 路线不只是“更好的视频表征”,可以进入行动闭环。

V-JEPA 2.1 和 LeWorldModel

V-JEPA 2.1 解决的是表征密度问题。一个只擅长全局场景理解的模型,未必能提供机器人需要的局部空间结构。V-JEPA 2.1 引入 dense predictive loss、deep self-supervision 和图像/视频统一训练,使表征更有空间和时间结构。它在短期物体交互预测、动作 anticipation、深度估计、机器人导航和抓取上都有更强指标。

LeWorldModel 解决的是另一个技术痛点:JEPA 从原始像素端到端稳定训练很难。过去很多方法依赖复杂多项损失、EMA teacher、预训练 encoder 或辅助监督来避免 collapse。LeWorldModel 尝试用较少损失项和高斯 latent regularizer,从像素端到端训练一个紧凑 JEPA,并在控制任务里做快速规划。

这两条进展分别对应“表征够不够细”和“训练够不够稳”。如果 JEPA 要成为世界模型路线的一部分,这两个问题都绕不开。前者关系到机器人能不能定位、接触、抓取;后者关系到方法能不能从研究 demo 变成可复用范式。

与 PlaNet、Dreamer 的关系

世界模型不是 JEPA 发明的。Ha 和 Schmidhuber 的 World Models、DeepMind 的 PlaNet 和 Dreamer 系列,早就把 latent dynamics 用在 planning 和 reinforcement learning 里。

PlaNet 从像素里学习 latent dynamics,再在 latent space 里做在线规划。Dreamer 把经验压进世界模型,并在紧凑状态空间里“想象”未来轨迹,用这些 imagined trajectories 学习行为。它们的重点是:智能体不必只靠真实环境一步步试错,可以在内部模型里滚动未来。

JEPA 与这些路线的相似点,是都反对直接从原始观测到动作的浅层模仿,都承认 latent space 对规划有价值。差异在预测目标。很多 world model 会重建观测、reward 或 transition distribution;JEPA 更强调联合嵌入空间的非生成式预测,尽量避免被原始空间细节拖住。

因此,JEPA 不是 world model 的唯一定义。它是 LeCun 认为更适合开放世界感知与规划的一种实现路线。它和 Dreamer、PlaNet 之间的关系,更像同一大方向下的不同技术取舍。

为什么这还不是胜利

JEPA 路线很漂亮,但还没有赢。

第一个问题是长程规划。短时视频预测和单步物体操控,与开放世界任务之间仍有巨大距离。真实任务会有部分可观测、物体永久性、错误恢复、多阶段目标、资源约束和不确定的人类偏好。

第二个问题是成本函数。LeCun 的架构需要 cost module,但成本不是天然给定的。机器人任务里可以用目标图像距离、碰撞风险或能耗;社会任务和开放式任务里,目标、风险、规则、偏好之间会冲突。成本函数如果设计不好,世界模型越强,错误行动越稳定。

第三个问题是因果泛化。表征空间预测可能仍然学到相关性。一个模型能预测视频里对象通常如何运动,不等于它知道哪个变量可干预、哪个变量只是伴随现象。动作条件训练能缓解这个问题,但真实世界里的因果变量发现仍然很难。

第四个问题是持续学习。LeCun 批评当前 AI 部署后基本不会学习。JEPA 如果只停留在离线预训练,同样会遇到这个问题。未来系统必须能把新观察、新失败、新环境差异沉淀到记忆和模型里,而不是每次靠工程师重新训练。

第五个问题是评测。图像分类、视频问答、action anticipation、robot pick-and-place 都只能覆盖一小块能力。世界模型最终要经得起更硬的测试:违反物理预期检测、动作后果预测、反事实干预、新环境迁移、长程任务恢复、对不可见变量的鲁棒推断。

世界模型应该怎样被检验

如果世界模型只是宣传词,很容易变成“模型能生成一个世界”。更严肃的检验应该围绕行动展开。

一个可用的测试框架可以分成几类:

  • 状态预测:给定片段,预测对象、关系、运动和遮挡变化。
  • 动作后果:给定状态和候选动作,预测不同动作导致的未来差异。
  • 反事实:改变一个变量,检查模型是否能分离因果因素和表面伴随因素。
  • 规划收益:在同样数据下,带世界模型的 planner 是否比直接 policy 更稳。
  • 迁移:环境、物体、光照、材质、机器人平台变化后,模型是否仍能工作。
  • 恢复:动作失败后,系统能否诊断失败条件并选择修复动作。

这些测试比“视频真不真”更贴近 LeCun 的问题。一个世界模型可以不生成任何漂亮画面,但只要它能提高行动选择质量,就比一个只会生成高保真视频的模型更接近智能体核心。

LLM 可以怎样接入

JEPA 路线并不排斥 LLM。一个现实的未来系统很可能把 LLM 放在接口层,让它处理语言目标、任务分解、工具调用、知识检索和人机对话;世界模型负责状态预测,planner 负责动作选择,memory 负责经验组织。

LLM 还可以帮助生成候选计划,再由世界模型评估哪些计划在物理上可行。它也可以把传感器和机器人状态解释成人能理解的报告。但如果系统没有独立的状态预测和行动评估,语言计划容易变成“听起来合理”的步骤,而不是对环境可执行的策略。

LeCun 和 LLM-first 路线的分歧就在这里。LLM-first 倾向于把视觉、动作、记忆、工具都接成语言模型的外围;LeCun 的路线倾向于把语言模型放在外围接口,把世界模型放在行动中枢。

小结

JEPA 的重点不是“又一种模型结构”,而是把智能的目标函数挪了位置。它不要求模型复原所有表面细节,而要求模型学到可预测、可规划、可行动的 latent structure。

这条路线最强的地方,是它把 LeCun 对 LLM 的批评变成了可执行研究计划:从 I-JEPA 的图像表征,到 V-JEPA 的视频预测,到 V-JEPA 2 的动作条件规划,再到 V-JEPA 2.1 和 LeWorldModel 对密集表征和稳定训练的改进。它最弱的地方也很清楚:长程规划、因果泛化、成本函数、持续学习和真实机器人迁移都还没有解决。

因此,JEPA 不该被当成“AGI 答案”。它更像 LeCun 路线里最清晰的一条工程假设:世界模型应该在表征空间里预测行动相关状态,智能体应该用这种预测比较未来,而不是只在原始数据表面继续模仿。

参考资料