LeCun 的世界模型与 JEPA 路线详解

LeCun 对 LLM 的批评，如果只读成“语言模型不够好”，会漏掉最重要的一半。他真正想推的是另一套智能体架构：系统不以文本续写为中心，而以世界模型为中心；不以生成逼真的表面为目标，而以预测行动相关的未来状态为目标；不靠一句话计划模拟智能，而靠内部模型、成本函数、记忆和动作选择形成闭环。

JEPA，Joint Embedding Predictive Architecture，正是这套路线里最有 LeCun 个人印记的技术部件。它的目标不是替代所有生成模型，也不是给“世界模型”注册一个新名字。它是在回答一个更窄的问题：如果世界本身充满高熵细节，智能体怎样学习那些对行动和规划真正有用的结构。

系列总纲见：LeCun 关于 LLM 与 AGI 的观点总集成。

世界模型不是视频生成器

“世界模型”这个词很容易被误读。近几年许多系统能根据文本生成视频、三维场景或交互环境，于是“world model”常被理解成“能生成一个看起来像世界的东西”。这只是其中一种可能形态，不是 LeCun 关心的核心。

LeCun 语境里的 world model，功能更接近 model-based control 里的内部动力学模型：给定当前状态和候选动作，预测未来状态会怎样变化。它不一定生成完整像素，不一定输出自然语言，也不一定能渲染一段漂亮视频。它必须能服务三件事：

预测：状态、对象、关系、运动和约束会怎样演化。
反事实：如果动作换成另一种，未来会怎样不同。
规划：比较多个候选未来，选择成本更低的行动。

这和“生成逼真画面”差别很大。一个模型可能生成非常真实的视频，却不知道视频里某个动作为什么导致杯子掉落；也可能不知道换一个动作之后杯子会不会留下。相反，一个 latent model 可能不生成任何像素，但能稳定预测“推杯子会让它靠近桌沿”“再推会让它失去支撑”“扶住杯沿能降低跌落风险”。后者更接近 LeCun 想要的世界模型。

为什么原始空间太重

传统生成式学习的直觉很自然：把输入的一部分遮住，让模型把它补出来；给前面的 token，让模型预测下一个 token；给前几帧视频，让模型生成下一帧。问题是，原始观测空间的信息量太大，而且大量信息与行动无关。

一段视频里，下一秒有很多合法未来。树叶如何抖、布料纹理如何褶皱、反光落在哪个像素、背景噪声怎样变化，都是高熵细节。像素级预测如果用均方误差，多个合法未来会平均成模糊图像；如果用生成式采样覆盖细节，就要把计算预算花在“看起来合理”的微观变化上。

语言也有类似问题。同一层意思可以有许多表述方式。token prediction 必须同时学习事实、格式、语气、风格、句法、语料偏见和用户期望。它很强，但训练目标仍然是“生成一个概率上合理的续写”。这个目标可以学到知识，却没有直接要求模型形成可行动的状态空间。

LeCun 的判断是：智能体不该把主要预算花在复原所有表面细节上。行动需要的是压缩后的结构，比如对象还在不在、接触是否发生、支撑关系是否稳定、路径是否可达、候选动作会不会造成不可逆后果。

JEPA 的核心动作

JEPA 的基本动作很简单：不在原始空间里预测，而在表征空间里预测。

1
2
3

observation -> encoder -> representation
context representation -> predictor -> target representation
prediction loss: predicted representation ~= encoded target representation

在图像里，目标可能是被遮住的区域；在视频里，目标可能是未来片段；在行动条件模型里，目标可能是执行某个动作后的未来 latent state。模型比较的是预测表征和目标表征是否兼容，而不是像素、token 或波形是否逐项对齐。

这个设计允许模型丢掉不可预测、也不重要的细节。一个杯子的材质纹理可以不完整，桌面反光可以不精确，背景窗帘的轻微抖动可以被忽略。但杯子作为对象、杯子和桌沿的关系、推力方向、接触变化、跌落风险，这些变量必须被保留。

JEPA 的野心不在“压缩率更高”，而在“压缩后还保留行动所需的因果结构”。这也是它和普通 representation learning 的区别。普通表征可以只为分类或检索服务；LeCun 要的是能进入预测和规划回路的表征。

Objective-driven architecture

LeCun 在 2022 年的路线图里，把未来智能体画成一个 objective-driven architecture。粗略拆开，它包含几类模块：

perception：把外部观测编码成内部状态。
world model：预测状态如何随时间和动作变化。
short-term memory：保存当前任务相关状态。
cost module：评估候选未来的风险、约束和目标距离。
actor / planner：选择动作，必要时在内部模型里滚动多个未来。
configurator：根据任务配置其他模块的工作方式。

JEPA 主要落在 perception 和 world model 之间。它让系统学到一个适合预测的 latent space，再让 predictor 在这个空间里处理缺失、未来和动作条件。成本函数和 planner 则把预测结果变成行动选择。

可以把这套路线写成一个小循环：

observation -> encoder -> latent state
latent state + candidate action -> world model -> future latent state
future latent state -> cost module -> expected cost
planner / actor -> selected action
feedback -> memory / model update

这和 LLM 写计划有本质差异。LLM 生成计划文本，是在语言分布里延续一段看起来合理的步骤。objective-driven system 的规划，是在内部状态空间里比较候选未来的代价。前者可能很有用，特别适合和人沟通；后者才直接面对行动后果。

I-JEPA：从图像补全到表征预测

I-JEPA 是这条路线的早期公开样板。它处理图像，但不要求模型复原被遮住区域的像素。模型看见图像的一部分，把上下文编码成表征，再预测目标区域的表征。

这个目标和 MAE、扩散式图像补全、传统 masked modeling 的差别在于：I-JEPA 不把“补出逼真图像”作为任务。它鼓励模型学习高层语义和空间结构，而不是复原每个局部纹理。Meta 当时把 I-JEPA 放在 LeCun 的“更像人类的 AI”愿景里，不是因为它已经具备行动能力，而是因为它展示了一个方向：世界知识可以通过预测抽象状态获得，而不必通过生成所有表面细节获得。

I-JEPA 的限制也明显。静态图像没有动作，没有时间展开，也没有反馈闭环。它能说明“表征空间预测”有价值，却还不能说明“智能体能规划”。

V-JEPA：时间、运动和遮挡

V-JEPA 把 JEPA 从图像推到视频。视频带来更多世界结构：对象连续存在，运动有惯性，遮挡会发生，接触会改变状态，事件有先后顺序。一个能在视频里预测缺失片段表征的模型，至少开始面对物理世界的时间结构。

V-JEPA 仍然是非生成式的。它不生成未来帧，不渲染像素，而是在 latent space 中预测被遮住的时空区域。这一点和 LeCun 的主张完全一致：世界模型不必把所有候选未来都画出来，只要保留对行动和判断有用的结构。

V-JEPA 的强项是 sample efficiency 和高层表征。Meta 报告里强调，它相对像素级重建路线更高效，因为模型没有被迫学习所有低层细节。但它也还不是完整行动模型。没有动作条件时，模型学习的是世界“通常如何演化”，而不是“某个动作会怎样改变世界”。

V-JEPA 2：动作条件世界模型的关键一步

V-JEPA 2 的重要性在于，它把视频自监督和机器人规划接了起来。论文里的训练结构值得单独拎出来：

actionless pre-training：使用超过一百万小时视频和一百万张图像学习视觉世界表征。
action-conditioned training：使用不到 62 小时的机器人视频，让 predictor 学会在候选动作条件下预测未来表征。
model-predictive control：部署时给定图像目标，在内部滚动候选动作，选择更可能接近目标的动作。

这个组合非常 LeCun。大部分世界知识来自观察，不需要每一步都靠机器人试错；少量交互数据把观察学到的表征接到行动条件预测上；规划时不是让语言模型写一串动作，而是在 latent space 中模拟动作后果。

V-JEPA 2-AC 在两个实验室的 Franka 机械臂上做 zero-shot pick-and-place，是这条路线最有说服力的演示之一。它不需要在目标部署环境重新采集数据，也不需要任务特定 reward，而是用图像目标和内部预测完成抓取放置。这个结果还不能外推到开放世界机器人，但它说明 JEPA 路线不只是“更好的视频表征”，可以进入行动闭环。

V-JEPA 2.1 和 LeWorldModel

V-JEPA 2.1 解决的是表征密度问题。一个只擅长全局场景理解的模型，未必能提供机器人需要的局部空间结构。V-JEPA 2.1 引入 dense predictive loss、deep self-supervision 和图像/视频统一训练，使表征更有空间和时间结构。它在短期物体交互预测、动作 anticipation、深度估计、机器人导航和抓取上都有更强指标。

LeWorldModel 解决的是另一个技术痛点：JEPA 从原始像素端到端稳定训练很难。过去很多方法依赖复杂多项损失、EMA teacher、预训练 encoder 或辅助监督来避免 collapse。LeWorldModel 尝试用较少损失项和高斯 latent regularizer，从像素端到端训练一个紧凑 JEPA，并在控制任务里做快速规划。

这两条进展分别对应“表征够不够细”和“训练够不够稳”。如果 JEPA 要成为世界模型路线的一部分，这两个问题都绕不开。前者关系到机器人能不能定位、接触、抓取；后者关系到方法能不能从研究 demo 变成可复用范式。

与 PlaNet、Dreamer 的关系

世界模型不是 JEPA 发明的。Ha 和 Schmidhuber 的 World Models、DeepMind 的 PlaNet 和 Dreamer 系列，早就把 latent dynamics 用在 planning 和 reinforcement learning 里。

PlaNet 从像素里学习 latent dynamics，再在 latent space 里做在线规划。Dreamer 把经验压进世界模型，并在紧凑状态空间里“想象”未来轨迹，用这些 imagined trajectories 学习行为。它们的重点是：智能体不必只靠真实环境一步步试错，可以在内部模型里滚动未来。

JEPA 与这些路线的相似点，是都反对直接从原始观测到动作的浅层模仿，都承认 latent space 对规划有价值。差异在预测目标。很多 world model 会重建观测、reward 或 transition distribution；JEPA 更强调联合嵌入空间的非生成式预测，尽量避免被原始空间细节拖住。

因此，JEPA 不是 world model 的唯一定义。它是 LeCun 认为更适合开放世界感知与规划的一种实现路线。它和 Dreamer、PlaNet 之间的关系，更像同一大方向下的不同技术取舍。

为什么这还不是胜利

JEPA 路线很漂亮，但还没有赢。

第一个问题是长程规划。短时视频预测和单步物体操控，与开放世界任务之间仍有巨大距离。真实任务会有部分可观测、物体永久性、错误恢复、多阶段目标、资源约束和不确定的人类偏好。

第二个问题是成本函数。LeCun 的架构需要 cost module，但成本不是天然给定的。机器人任务里可以用目标图像距离、碰撞风险或能耗；社会任务和开放式任务里，目标、风险、规则、偏好之间会冲突。成本函数如果设计不好，世界模型越强，错误行动越稳定。

第三个问题是因果泛化。表征空间预测可能仍然学到相关性。一个模型能预测视频里对象通常如何运动，不等于它知道哪个变量可干预、哪个变量只是伴随现象。动作条件训练能缓解这个问题，但真实世界里的因果变量发现仍然很难。

第四个问题是持续学习。LeCun 批评当前 AI 部署后基本不会学习。JEPA 如果只停留在离线预训练，同样会遇到这个问题。未来系统必须能把新观察、新失败、新环境差异沉淀到记忆和模型里，而不是每次靠工程师重新训练。

第五个问题是评测。图像分类、视频问答、action anticipation、robot pick-and-place 都只能覆盖一小块能力。世界模型最终要经得起更硬的测试：违反物理预期检测、动作后果预测、反事实干预、新环境迁移、长程任务恢复、对不可见变量的鲁棒推断。

世界模型应该怎样被检验

如果世界模型只是宣传词，很容易变成“模型能生成一个世界”。更严肃的检验应该围绕行动展开。

一个可用的测试框架可以分成几类：

状态预测：给定片段，预测对象、关系、运动和遮挡变化。
动作后果：给定状态和候选动作，预测不同动作导致的未来差异。
反事实：改变一个变量，检查模型是否能分离因果因素和表面伴随因素。
规划收益：在同样数据下，带世界模型的 planner 是否比直接 policy 更稳。
迁移：环境、物体、光照、材质、机器人平台变化后，模型是否仍能工作。
恢复：动作失败后，系统能否诊断失败条件并选择修复动作。

这些测试比“视频真不真”更贴近 LeCun 的问题。一个世界模型可以不生成任何漂亮画面，但只要它能提高行动选择质量，就比一个只会生成高保真视频的模型更接近智能体核心。

LLM 可以怎样接入

JEPA 路线并不排斥 LLM。一个现实的未来系统很可能把 LLM 放在接口层，让它处理语言目标、任务分解、工具调用、知识检索和人机对话；世界模型负责状态预测，planner 负责动作选择，memory 负责经验组织。

LLM 还可以帮助生成候选计划，再由世界模型评估哪些计划在物理上可行。它也可以把传感器和机器人状态解释成人能理解的报告。但如果系统没有独立的状态预测和行动评估，语言计划容易变成“听起来合理”的步骤，而不是对环境可执行的策略。

LeCun 和 LLM-first 路线的分歧就在这里。LLM-first 倾向于把视觉、动作、记忆、工具都接成语言模型的外围；LeCun 的路线倾向于把语言模型放在外围接口，把世界模型放在行动中枢。

小结

JEPA 的重点不是“又一种模型结构”，而是把智能的目标函数挪了位置。它不要求模型复原所有表面细节，而要求模型学到可预测、可规划、可行动的 latent structure。

这条路线最强的地方，是它把 LeCun 对 LLM 的批评变成了可执行研究计划：从 I-JEPA 的图像表征，到 V-JEPA 的视频预测，到 V-JEPA 2 的动作条件规划，再到 V-JEPA 2.1 和 LeWorldModel 对密集表征和稳定训练的改进。它最弱的地方也很清楚：长程规划、因果泛化、成本函数、持续学习和真实机器人迁移都还没有解决。

因此，JEPA 不该被当成“AGI 答案”。它更像 LeCun 路线里最清晰的一条工程假设：世界模型应该在表征空间里预测行动相关状态，智能体应该用这种预测比较未来，而不是只在原始数据表面继续模仿。