LeCun 关于 LLM 与 AGI 的观点总集成

Yann LeCun 近几年关于 LLM 和 AGI 的所有争议，核心不在“LLM 有没有价值”。他的判断一直更窄，也更尖锐：大语言模型会成为重要工具，会进入编程、写作、搜索、办公和人机交互，但把下一个 token 预测继续放大，不能自然推出人类级智能。

这个判断背后有一整套架构观。LeCun 不喜欢 AGI 这个词，更偏好 human-level intelligence、advanced machine intelligence 或 AMI。原因是“general”容易把问题说空，好像一个系统只要在足够多的文本任务上胜出，就已经接近通用智能。LeCun 真正在意的是另一组能力：理解物理世界，形成可预测的世界模型，拥有工作记忆和长期记忆，能推理，能分层规划复杂行动，并且能在部署后从观察和行动中继续学习。

LeCun 的观点不能压扁成“LLM 没用”，也不能压扁成“JEPA 必胜”。它更像一张系统架构图：LLM 是强大的语言接口、知识压缩器和工具层；完整智能体还需要能预测行动后果的 world model、能比较未来的 cost module、能保存经验的 memory、能选择动作的 planner / actor，以及能从真实反馈继续学习的闭环。

旧的 JEPA、VLA、贝叶斯、因果、Transformer、数据瓶颈和电子果蝇这些线索，都能放回这条主线里。它们不是互相独立的材料，而是在回答同一个问题：当前的 LLM 到底差在哪里，LeCun 想把智能系统的中枢换到哪里。

LeCun 关于 LLM、AGI 与世界模型的路线图

系列结构

这篇主文只做总集成：把 LeCun 对 LLM、AGI、AMI、世界模型、JEPA、VLA、贝叶斯推断、因果、数据瓶颈、电子果蝇和开源风险的观点放在同一张图里。几个密度更高的题目，拆成独立长文展开：

总览：不是反 LLM，而是反 LLM scaling 作为完整路线

话题	LeCun 的位置	常见误读
LLM	很有用，值得投资，但不是 human-level intelligence 的充分路线	“LeCun 认为 LLM 没用”
AGI	术语误导性强，人类智能本身也不真正 general	“AGI 只是聊天模型继续变强”
AMI / HLI	更强调能力机制，而不是玄学式“通用”	“换个名字而已”
世界模型	智能体要能预测世界如何随状态和行动变化	“世界模型等于生成逼真视频”
JEPA	一种在表征空间里做预测的世界模型路线	“JEPA 是世界模型的唯一定义”
VLA	有价值，但更像语言条件下的动作策略或 actor 层	“VLA 已经等于具身 AGI”
贝叶斯推断	LLM 像隐式贝叶斯文本推断机，但不是显式世界后验机器	“会 in-context learning 就等于理解世界”
风险和开源	他怀疑近期失控叙事，支持开放生态和民主治理	“LeCun 认为 AI 永远没有风险”

这一区分能避免一个常见混乱：LeCun 批评的是“把自回归文本模型放在智能系统中心”这条路线，不是批评语言模型作为部件。语言模型未来仍可能很重要，只是它未必是系统的核心状态模型。

他为什么不喜欢 AGI 这个词

LeCun 说不喜欢 AGI，理由不是修辞洁癖，而是概念边界问题。artificial general intelligence 暗示存在一种“通用智能”可以被直接追求。但人类智能并不真正 general。人类也有大量盲区，只是在物理世界、社会互动、语言、工具使用和长期学习上有一组高度耦合的能力。

这也是他常说“先到 cat-level intelligence，再谈 human-level intelligence”的原因。猫不会写论文，也不会解高等数学，但猫能从视觉、触觉、行动反馈中学到三维世界的稳定结构。它知道物体会掉下去，知道障碍物怎么绕，知道身体和环境之间的约束。当前的 LLM 拥有海量文字知识，却没有这种底层世界经验。

AGI 这个词把问题拉到“像不像人”上。LeCun 更关心“智能系统缺哪些机制”。在他的框架里，名字可以叫 AMI，也可以叫 human-level AI，但能力账本必须写清楚：世界模型、记忆、推理、规划、行动、持续学习。

缺失能力：世界、记忆、推理、规划、持续学习

TIME 2024 年访谈里，LeCun 把当前 AI 缺失的能力归纳得很直接：理解物理世界、规划达到目标的一系列行动、长时间推理、工作记忆。2026 年 Dupoux、LeCun、Malik 的自主学习论文又补了一层：当前 AI 部署后基本不会自己学习，学习流程被外包给人类工程师、数据清洗、预训练、微调和评测管线。

这几件事彼此咬合，不是互相独立的功能插件。

物理世界理解要求系统能形成对象、空间、材料、因果、遮挡、运动、可达性的表征。工作记忆让系统能在当前任务中保持状态，不只是靠 prompt 里的文字残影。长期记忆让经验能跨任务保留下来，而不是每次重新开始。推理需要能在内部状态上变换假设。规划需要比较候选未来的代价。行动让系统的预测接受环境反馈。持续学习则把反馈沉淀回模型或外部结构。

长上下文、RAG、工具调用、agent harness 都能补一部分短板，但在 LeCun 看来，这些更像围绕 LLM 的工程补强。补强可能非常有用，却不等于 LLM 本身已经学会了世界模型。

从 LLM 到 AMI：LeCun 到底在反对什么

TIME 2024 年访谈、《华尔街日报》2025 年 11 月报道、Business Insider 2025 年 Brooklyn 活动报道，以及 WIRED 2026 年 AMI 创业报道，指向同一条主线：单靠 scaling LLM 不会得到 human-level AI；world models 会成为更主流的 AI 架构方向；LLM 很有用，但不是通向 human-level intelligence 的道路，并且正在挤占其他路线的研究资源。

把这些采访放在一起，LeCun 的论点大致有四层。

第一，LLM 的基本能力来自对文本分布的建模。文本携带大量知识，LLM 因此能翻译、写作、编码、问答、调用工具，也能在许多任务上表现出推理迹象。但文本不是世界本身，文本也不会穷尽人和动物通过观察、行动、碰撞、失败获得的经验。

第二，智能体需要 world model。这个模型要能预测“如果状态是这样，采取某个动作后会发生什么”。它要支撑反事实推演和行动选择，不能只是简单续写，或者生成一段更像训练集的视频。

第三，规划需要成本函数、记忆和动作。一个系统要完成复杂任务，不能只问“下一个输出最像什么”，还要问“哪个未来状态代价更低”“哪个行动会把状态推向目标”“哪个中间状态应该避免”。LeCun 在 2022 年的路线图和 2023 年与 Anna Dawid 的论文里，都把 world model、cost、actor、memory、configurator 放在同一个架构里。

第四，JEPA 是实现 world model 的候选部件。I-JEPA、V-JEPA、V-JEPA 2、V-JEPA 2.1、LeWorldModel 这些工作都在验证同一个方向：从图像、视频或像素中学习潜在表征，再在潜在空间里预测缺失区域、未来状态或动作后果。

这里的关键词是“反表面模仿作为主路径”。如果目标是写一封邮件、改一段代码、生成一张图片，原始空间生成很有效；如果目标是造出能在物理世界里长期行动的智能体，只学会复刻训练数据表面就不够。

为什么 JEPA 不在原始空间里预测

所谓“原始空间”，指模型直接看到或直接输出的观测形式：图片里的像素、视频里的帧、语言里的 token、音频里的波形。自回归 LLM 在 token 空间里预测，扩散模型在像素或潜变量解码后的图像空间里生成，传统视频预测模型试图补全未来帧。它们的共同点是：目标函数要求模型尽量还原或生成可观察的表面。

这条路有一个根本麻烦：原始空间的信息熵太高。

一段视频里，一片树叶下一秒怎么抖、墙面纹理的噪声怎么变化、手指边缘的高光落在哪里，都有无数合法答案。给定同一个上下文，真实世界的未来不是单一答案，而是一簇可能状态。模型如果用均方误差去预测像素，多个合法未来会被平均成模糊结果；如果用生成式采样去覆盖这些细节，又会把大量计算花在与任务无关的变化上。

语言也有类似问题。同一个意思可以用许多句子表达。token 级预测必须把风格、措辞、语序、语气也纳入概率分布。它能学到很多结构，但目标本身仍然鼓励“生成一个合理续写”，而不是“形成一个可行动的世界状态”。

JEPA 的选择是把观测先编码成表征。图像、视频或其他输入经过 encoder 变成一个 latent representation；predictor 不去复原原始像素或下一个 token，而是预测目标区域、未来时刻或动作后状态在表征空间里的位置。损失函数比较的是预测表征和目标表征是否兼容，而不是每一个像素、每一个词是否完全对上。

这个改变看似小，技术意义很大。

在原始空间里，模型被迫回答：“缺失的所有细节是什么？”在表征空间里，模型回答的是：“对后续判断和行动有用的结构是什么？”前者会被高熵细节淹没，后者允许模型忽略不可预测、也不重要的部分。Meta 在 I-JEPA 和 V-JEPA 的介绍里反复强调这一点：JEPA 预测抽象表征，不预测像素；V-JEPA 是非生成模型，在视频的时空区域被遮住后，预测的是 latent space 中的表示。

一个简单例子足够说明差异。桌上有一个杯子，手正要推它。原始空间预测路线会尝试生成下一帧：杯子边缘的反光、桌面纹理、手指阴影都要交代。JEPA 更关心另一组变量：杯子还是不是一个对象，位置如何变化，是否接近桌沿，是否可能倒下，手的动作会怎样改变杯子的未来状态。这些变量不是原始像素，却更接近规划所需的信息。

所以，JEPA 在表征空间里预测，目的很务实：把预测目标从不可控的表面细节，转移到稳定、压缩、可用于行动的状态结构。

语言预测为什么显得更容易

LeCun 常把语言和现实世界放在一起对比：语言是离散符号，现实世界是连续、多维、带物理约束的动态系统。这个判断方向对，但容易被说得太粗。语言并不简单；它是人类已经压缩、离散化、命名、解释过的世界。

一句“杯子要从桌沿掉下去了”，已经把大量视觉信号、对象边界、支撑关系、重力、运动趋势和风险判断压成几个 token。LLM 预测下一个 token，本质上是在预测人类怎样描述这类情形。训练数据里的人类作者已经替模型完成了很多感知抽象、因果解释和语义标注。

现实世界没有这么客气。传感器流里同时有位置、速度、形状、材料、光照、遮挡、摩擦、受力、触觉和声音；许多变量不可见，许多未来同时合法。同一个杯子被推到桌沿，下一秒可能滑落、停住、被手扶住、撞到别的物体，也可能因为桌面材质和力度差异走向完全不同的轨迹。像素级预测要面对的是完整高维流，token 级预测面对的是人类已经整理过的描述。

不过，问题也不能简化成“离散符号容易，连续现实困难”。现代 LLM 的 token 虽然离散，内部 embedding 和 hidden state 仍是连续向量空间。2026 年 Huang、LeCun、Balestriero 的 Semantic Tube Prediction 论文甚至把 token 序列轨迹放到连续语义流形里分析，并指出传统 scaling law 更像描述当前训练方式的经验规律，不是最优训练路线的处方。分界不在离散和连续本身，而在预测对象：

1 2	`LLM 预测：世界如何被人类表述 world model 预测：世界状态如何随时间和行动改变`

这一区分解释了为什么 LLM 在语言、代码、数学题型和文本化常识上很强，却在具身行动、物理直觉和长期闭环上容易露出边界。语言是世界的文本投影，JEPA 想学的是世界状态的转移结构。

预测和规划：先进路线不只是“更会模仿”

原始数据模仿路线的强项，是学会数据长什么样。给足图文、代码、视频，它能生成越来越像样的文本、图像和短视频。这个能力很强，但它天然偏向被动：训练数据里某种情形之后经常出现什么，模型就学会生成相似的延续。

规划问题的结构不同。规划不是问“下一段最像训练数据的片段是什么”，而是问“如果选择动作 A、B、C，哪个未来状态更接近目标，哪个代价更低”。这需要模型具有动作条件下的状态转移能力。

JEPA 放在 LeCun 的完整架构里，大致承担这样的角色：

observation -> encoder -> latent state
latent state + candidate action -> predictor -> future latent state
future latent state -> cost module -> expected cost
planner / actor -> choose lower-cost action

这个循环接近 model-predictive control：先在内部模型里滚动多个候选未来，再根据成本选择动作，并把真实反馈写回状态和记忆。它不需要把每个候选未来都渲染成完整视频，也不需要靠语言链条把每一步“讲出来”。它只要在足够好的潜在状态空间里预测：采取某个动作之后，世界中相关变量会怎么变。

这就是预测-规划路线比单纯模仿路线先进的具体含义。先进不等于 JEPA 已经全面胜利；落后也不等于生成式模型没有用途。判断只针对“通向可规划智能体的主路线”。

原始空间模仿路线落后在四点。

一是预测目标太重。每一步都复刻可观察表面，会让模型背负大量无关细节。对行动选择来说，知道墙面纹理的每个像素不重要，知道障碍物位置、可通行空间、物体可抓取性更重要。

二是反事实能力弱。训练集续写回答的是“通常会怎样”，规划需要回答“如果这样做会怎样”。两者接近，但不相同。没有动作条件的世界模型，只能从相关性里猜未来，难以稳定支持干预。

三是闭环误差会累积。用生成模型一帧一帧地产生未来，再基于生成未来继续推演，很容易把小错误滚成大漂移。表征空间预测只保留任务相关变量，虽然也会犯错，但目标更窄，规划成本更低。

四是评估指标容易错位。文本像不像、视频真不真、图像细不细，不等于系统能不能选择正确动作。具身智能的评价应该看：能否预测行动后果，能否在新环境里少量试错，能否从失败中恢复，能否用内部模拟减少真实世界代价。

JEPA 的先进性在于目标变了：它不再把智能约化成“生成一个像训练数据的样本”，而是把智能拆成表征、预测、成本、行动和记忆之间的闭环。这个闭环还很早期，但它比单纯拟合原始数据表面更接近智能体的结构。

JEPA 是世界模型的唯一定义吗

不是。

世界模型是功能定义，不是架构商标。只要一个系统能学习环境的内部状态，并预测“在某个状态下采取某个动作之后，未来状态、观测、奖励或代价会怎样变化”，它就可以被叫作 world model。关键不是它叫不叫 JEPA，而是它能不能支持内部模拟、反事实推演和规划。

这个概念早于 JEPA。Ha 和 Schmidhuber 的 World Models、DeepMind 的 PlaNet、Dreamer 系列，都属于世界模型路线。PlaNet 从像素中学习 latent dynamics，再在 latent space 里做快速在线规划；Dreamer 把经验压成世界模型，并在紧凑状态空间里“想象”未来轨迹来学习行为。它们和 JEPA 一样，都不满足于直接从图像到动作的模仿，但实现方式不同：有的用生成式 latent dynamics，有的用 recurrent state-space model，有的预测 reward/value，有的预测 embedding。

JEPA 是 LeCun 偏好的世界模型实现路线之一。它的主张更窄：不要在原始空间里生成未来，而是在联合嵌入空间里预测兼容的未来表征。这个设计尤其适合处理高维感知输入，因为它允许模型丢掉与行动无关的细节，保留对象、关系、运动、可达性、稳定性这类结构。

所以，JEPA 不是世界模型的唯一定义。两者的关系可以压成两行：

1 2	`world model = 能预测动作条件下未来状态的内部模型 JEPA = 一种非生成式、表征空间预测的 world model 路线`

这一区分很重要。一个能生成逼真视频的模型，不必然是好的世界模型；如果它不能被动作条件化，不能支持稳定反事实推演，不能帮助选择低成本行动，它更像视觉生成器。反过来，一个不生成任何像素的 latent model，只要能预测状态转移并服务规划，也可以是强世界模型。

近期证据链：从 I-JEPA 到 V-JEPA 2.1

I-JEPA、V-JEPA、V-JEPA 2、V-JEPA 2.1 和 LeWorldModel，构成了 LeCun 路线近几年的技术证据链。它们没有证明“JEPA 已经通往 AGI”，但不断把问题从“能不能学到好表征”推向“能不能预测、规划、行动”。

I-JEPA 的重点是图像。它不重建被遮住的像素，而是在抽象表征里预测缺失区域。Meta 2023 年的介绍把它放在 LeCun 的核心主张下：智能系统应该学习世界的内部模型，而不是把所有精力花在生成像素级细节上。

V-JEPA 把对象换成视频。视频比图片更接近物理世界，因为它包含时间、运动、遮挡和对象交互。V-JEPA 仍然不是生成模型，它预测的是视频片段在 latent space 中的表示。这个选择和 LeCun 的路线高度一致：如果目标是规划，系统不必知道树叶下一帧每个像素怎么抖，但必须知道对象、关系和运动趋势如何变化。

V-JEPA 2 继续往行动靠近。论文和 Meta 技术介绍里最关键的数字不是单一榜单分数，而是训练结构：先用超过一百万小时视频和一百万张图像做 actionless self-supervised pre-training，再用不到 62 小时的机器人视频做 action-conditioned training。V-JEPA 2-AC 随后在两个实验室的 Franka 机械臂上做 zero-shot pick-and-place，用图像目标和 model-predictive control 做规划，不需要在部署环境重新采集任务数据，也不需要任务特定 reward。

V-JEPA 2.1 和 LeWorldModel 又补了两个方向。V-JEPA 2.1 强调 dense features，让视频表征更有空间和时间结构；LeWorldModel 则试图解决 JEPA 从原始像素端到端稳定训练的问题，用较少损失项和紧凑模型在控制任务中做快速规划。这些工作都还处在研究阶段，但它们把 LeCun 的观点落到了可检验命题上：表征是不是携带物理结构，预测是不是动作条件化，规划是不是比单纯模仿更有效。

这条证据链也有清楚的负面证据。Meta 发布 V-JEPA 2 时同时强调，当前模型在物理推理上仍显著落后于人类；在 IntPhys 2 这类违反物理预期测试上，许多视频模型接近随机水平。这个缺口说明世界模型路线没有完成，但也说明问题本身很具体：不是让模型说得更像，而是让模型在物理违反、动作后果、长期一致性和新环境迁移上过关。

VLA 机器人架构为什么还不够

机器人领域的 VLA，Vision-Language-Action，是 LLM/VLM 路线向具身智能延伸后的代表。RT-2 把机器人动作编码成 token，让视觉语言模型在看图和读指令后直接输出动作；OpenVLA 用开源 7B 模型和 97 万条真实机器人示范做通用操控策略；π0 则把预训练 VLM 接上 flow matching action head，直接输出连续动作轨迹，试图解决高频、灵巧控制问题。

这些工作很重要。它们证明大规模视觉语言预训练确实能把语义知识迁移到机器人：识别新物体、理解空间关系、执行未在机器人数据里直接出现过的指令。RT-2 论文里也明确说，VLA 可以把 web-scale 视觉语言知识接入低层机器人控制。

但从 LeCun 的标准看，VLA 更像“语言条件下的动作策略”，不是完整世界模型。

第一个缺陷是缺少显式预测环。典型 VLA 的主接口是：

1	`image + instruction -> action`

它学习的是在这个视觉上下文和语言指令下，人类示范数据里常出现什么动作。它可以很强，但核心仍是 policy imitation。世界模型需要的是：

1	`state + candidate action -> predicted future state -> cost -> selected action`

两者差异很大。VLA 直接给动作，JEPA/世界模型先预测行动后果，再让 planner 比较候选未来。前者更像熟练反射，后者才有内部试错。

第二个缺陷是受示范分布限制。RT-2 论文已经承认，模型的 physical skills 仍然受机器人数据中出现过的技能分布限制。VLA 能把“把苹果放到数字 3 上”这种语义泛化做好，不代表它已经理解摩擦、重心、遮挡、碰撞和物体可变形性。一个没见过的接触动力学、一个滑动的桌面、一个夹爪误差，都可能把直接策略带出训练分布。

第三个缺陷是动作表示本身会丢信息。RT-2 和 OpenVLA 这类模型把连续动作离散成 token，训练方便，但空间精度和时间分辨率会被量化影响。FAST 论文指出，常见的逐维、逐时间步分箱，在高频灵巧技能上表现很差。π0 这类连续动作/flow matching 路线缓解了这个问题，但它主要改进的是 action decoder，不自动补上动作条件世界模型。

第四个缺陷是长程任务容易把规划外包给语言。VLA 可以输出一串动作，也可以由上层 VLM/LLM 生成子任务，但如果内部没有可反复滚动的状态转移模型，长程任务就会退回“语言计划 + 反应式控制”。这在整理桌面、开抽屉、叠衣服这类任务里尤其明显：每一步的真实物理反馈都会改变下一步的可行空间，光靠语义计划不够。

第五个缺陷是失败解释和修复能力弱。一个 VLA 抓取失败后，可以再看一眼、再输出动作；但如果它没有预测“为什么失败”和“哪个动作会改变失败条件”的内部模型，它的修复更多是重新采样策略，而不是基于反事实原因调整行动。

因此，VLA 不是错路，也不是没有价值。它很可能会成为未来机器人系统里的 actor、语言接口或快速反应层。但把 VLA 当作完整智能体路线，就会落回 LeCun 批评的模式：把“看见上下文后生成最像示范的动作”误当成“理解世界并规划未来”。更稳的架构应当把 VLA 的语义能力、连续控制能力，与 JEPA/Dreamer/PlaNet 这类动作条件世界模型结合起来。

LLM 是贝叶斯推断机器吗

可以说是，但只能在弱意义上说。

自回归 LLM 输出的是条件分布：

1	`pθ(next token \| context)`

如果上下文里有几个样例，模型会根据这些样例推断当前任务、语体、概念和隐含规则。Xie、Raghunathan、Liang、Ma 在 2021 年的论文《An Explanation of In-context Learning as Implicit Bayesian Inference》中，把 in-context learning 解释成一种隐式贝叶斯推断：模型在预训练中学会根据长文本推断潜在概念，测试时则根据 prompt 中的样例推断共享的潜在任务。

形式上可以写成：

1 2	`p(output \| prompt) = ∫ p(output \| concept, prompt) p(concept \| prompt) d(concept)`

这个式子很有解释力。Prompt 里的例子越多，模型越可能把 posterior 集中到正确的潜在任务上，于是表现出“看几个例子就学会”的能力。许多 LLM 的上下文学习、风格迁移、格式跟随，都可以从这个角度理解。

但强意义上的“贝叶斯机器”并不成立。

LLM 没有显式维护一个关于真实世界的 posterior。它没有把参数当作随机变量来做完整后验更新，也不会在一次对话中真正重估所有世界假设。它做的是 amortized inference：训练阶段把大量数据里的统计结构压进参数，推理阶段用激活状态和注意力在当前上下文里近似选择某些模式。这个过程像贝叶斯 posterior predictive，但不是严格的、可校准的、关于世界本体的贝叶斯推断。

它的天然限制也在这里。

第一，prior 来自训练语料。语料里高频、权威、套路化的模式会成为模型的默认倾向。上下文证据不足时，模型更容易回到训练分布里的常见续写。

第二，evidence 主要是 token。文本证据能描述世界，但不是世界本身。物体撞击、摩擦、重力、遮挡、可抓取性、身体姿态这些信息，在纯文本里是压缩过的二手材料。

第三，更新发生在上下文窗口里。没有外部记忆、工具、检索或持续训练时，模型只能在有限上下文里改变当前输出分布。会话结束后，参数并没有因为这次经验而改变。

第四，目标是续写概率，不是真值校准。一个回答可能在语言上很像正确答案，却没有被外部世界验证。幻觉不是偶然 bug，而是“生成高概率文本”和“保持事实为真”之间目标不一致的表现。

第五，长程规划会变成 token 链条上的脆弱搜索。模型可以写计划，也可以模拟推理，但每一步仍然是语言分布里的下一步。没有独立的状态模型、成本模型和动作模型时，规划很容易被叙述顺滑度替代。

所以，LLM 可以像一台隐式贝叶斯推断机：它根据上下文推断潜在任务，再给出 posterior predictive 式的输出。它不是一台足够的世界推断机：它的后验主要投影在文本延续上，而不是投影在可行动的物理状态上。

因果推理：能说因果，不等于会做干预

把 LeCun 的批评翻成因果语言，可以得到一个很尖锐的判断：当前 LLM 能处理大量因果话语，但缺少稳健的、可用于行动的因果模型。

这句话不能理解成“LLM 完全不会因果推理”。如果题目写成文本规则，例如“A 导致 B，B 导致 C，A 是否影响 C”，模型可以给出正确答案。医学、法律、代码、物理题里常见的因果关系，也大量存在于训练语料中。LLM 可以从这些陈述性知识里抽取模式，把旧概念组合到新语境里。

边界在于干预。真正的因果推理不只问“文本里通常怎么说”，还要问“如果对变量 A 做干预，变量 B 会怎样变”。写成图式，大致是：

1	`state + intervention/action -> predicted future state`

自回归 LLM 的主目标不是这个。它学到的是在上下文条件下输出高概率文本；它没有显式识别环境中的因果变量，也没有把动作当成改变世界状态的干预来训练。文本中的因果知识可能完整，也可能缺失、过时、混入偏见，到了具体环境里还可能根本不适用。

这也是近年的 causal world model 工作要把 LLM 和因果表征学习接起来的原因。《Language Agents Meet Causality》这类论文的基本判断是：LLM 可以提供语言接口和常识，但长期规划需要一个能模拟行动后果的 causal world model。那个模型像一个可查询的模拟器，让语言模型不只是在文本里说“如果……会怎样”，而是在潜在状态里评估多个可能未来。

所以，LLM 的泛化主要发生在语言和陈述性知识空间里。它可以把“人类已经写下来的因果关系”重新组织得很强，但这和“通过行动发现因果、用干预预测未来、根据失败修正模型”仍是两种能力。LeCun 说 LLM 不是通向 human-level intelligence 的主路，核心就在这里：智能体需要的是因果闭环，不只是因果陈述。

这种限制会不会影响 Transformer 的未来

会影响自回归 LLM 路线，但不等于 Transformer 没未来。

Transformer 是一种计算结构：注意力、前馈层、位置编码、残差连接和归一化，把序列或 patch 映射成表征。LLM 是把 Transformer 用在 token 自回归生成上。V-JEPA、I-JEPA 里同样可以用 Vision Transformer 做 encoder 或 predictor。LeCun 针对的不是 attention 机制本身，而是把“预测下一个离散 token”当成通用智能的核心训练目标。

未来更可能出现混合分工。

LLM 继续负责语言接口、代码、知识压缩、工具调用和人机交互。世界模型负责感知、状态预测、物理约束、动作后果和低成本内部模拟。Transformer 仍可能作为 encoder、memory、latent predictor、multimodal fusion 的关键部件，只是它不再必然以“聊天模型”的形态站在系统中心。

因此，“LLM 的贝叶斯式上下文推断有天然限制”影响的是技术路线的权重：单纯扩大 token 模型的边际收益会下降；让模型接入视频、动作、记忆、工具、仿真和验证循环，会变得更重要。Transformer 仍会留下，问题出在“只要把下一个 token 预测放大，就会自然得到完整智能体”的叙事。

LLM 在未来系统里还有位置

LeCun 的路线不要求把 LLM 从未来 AI 系统里拿掉。更合理的分工是让 LLM 做自己擅长的部分。

LLM 可以承担语言接口，把人的目标、约束和反馈翻译成系统可处理的条件。它可以做代码生成、工具调用、文档检索、知识压缩和任务分解。它也可以和视觉、动作、世界模型对齐，成为多模态系统的解释层或控制层。V-JEPA 2 论文里就有把视频模型与大语言模型对齐后提升视频问答的结果，这说明语言层和世界模型路线并不冲突。

冲突只发生在“谁是中枢”的判断上。LLM-first 路线倾向于把其他能力变成聊天模型外围工具；LeCun 的路线倾向于把 LLM 放在接口层，把状态预测、行动选择和持续学习交给世界模型、成本模块、记忆和规划器。

这个分工也能解释为什么他既批评 LLM scaling，又不反对继续投资 LLM。语言系统会是未来智能体的必要外壳，但外壳不等于身体、记忆、环境模型和行动控制。

描述性科学和创造性

LeCun 对 LLM 路线的另一个批评，可以概括成“描述性太强，生成机制太弱”。这里的“描述性”不是说 LLM 只能背百科，也不是说它写不出新句子。它指的是：模型主要学习人类如何描述世界、解释问题、写出答案，而不是直接学习世界内部状态如何变化。

描述性科学擅长整理现象：哪些话经常一起出现，哪些解释听起来合理，哪些模式在语料中高频。机制式科学追问另一件事：哪些变量真的在起作用，干预哪个变量会改变结果，哪个实验能区分两个竞争解释。LLM 可以生成假说、列出解释、写出实验计划，但裸模型没有原生实验闭环，也没有把真实反馈自动纳入世界模型的机制。

因此，LLM 不是没有创造性。它很擅长组合式创造：把概念、风格、代码模式、类比和案例重新拼成新的文本或方案。许多写作、编程、设计、检索、综述任务，正是靠这种组合式创造产生价值。

LeCun 怀疑的是另一种创造性：机制式创造。科学上的新东西不只是从旧文本里拼出一句新话，而是提出一个能解释、预测、干预、验证的结构。牛顿力学、进化论、相对论、现代遗传学的创造性，都不止在语言表达上，而在表征方式和因果机制上。一个智能体如果只能在文本空间里生成“看起来像新理论”的段落，却不能把新假说放进环境里试验、预测失败、修正状态模型，它的创造力就停在描述层。

这也解释了为什么“数据更多”不必然等于“科学创造更强”。更多文本可以提升组合空间，更多代码轨迹可以提升工具使用，更多问答可以提升陈述性知识覆盖。但如果目标仍是预测 token，模型改进的是描述世界的能力；要走向机制式创造，就要让模型学会预测行动后果、设计干预、吸收实验反馈，并把这些反馈沉淀为可复用的世界模型。

数据用完是不是意味着闭源模型路线到头

这要分三层看。

第一，公共高质量文本确实正在变成瓶颈。Villalobos 等人在《Will we run out of data?》里估计，如果 LLM 按既有趋势继续扩大，对公共人类文本的训练需求会在 2026 到 2032 年间接近可用存量。Chinchilla scaling law 又强化了一个现实：在给定算力下，参数和训练 token 都要一起扩。模型越大，越需要更多高质量 token；重复旧数据可以撑一段，但重复过多后边际收益会衰减。

第二，“数据瓶颈”不等于“闭源模型马上到头”。闭源实验室还能继续拿到几类数据：购买或授权的书籍、新闻、论文、代码和专业数据库；受政策和用户选择约束的聊天、代码会话和产品反馈数据；经客户授权或合同允许的企业工作流数据；多模态数据，包括图片、视频、音频和屏幕操作轨迹；合成数据，包括模型生成后经过人类、工具或 verifier 筛选的题目、证明、代码和推理轨迹；还有模型蒸馏数据，也就是从更强模型的输出中训练较小或专用模型。

第三，按照 LeCun 的说法，这些数据只能延长 LLM 路线，不会自动解除路线本身的问题。更多文本、更长代码轨迹、更多聊天记录，可以让模型更会说、更会写、更会操作电脑界面；但如果训练目标仍然主要是 token 续写或示范动作模仿，它学到的仍然主要是语言和行为分布。物理世界里的动作后果、因果干预、长期状态记忆、可验证规划，不会因为“又多了几万亿 token”自动出现。

Anthropic 的“十万亿参数模型”尤其要谨慎。截至公开资料，Anthropic 没有确认 Claude 系列的参数量，也没有公开一个“十万亿参数 Claude”或“十万亿参数 Anthropic 模型”的训练数据清单。把这个数字当事实，需要标注为传闻、外部估算或未证实说法。

如果假设某家闭源公司真要训练十万亿级模型，数据来源大概率不会只是公共网页。它会混合公开 web、授权内容、图书、代码、数学与科学语料、用户反馈、合成数据、多模态数据、工具使用轨迹、经许可的企业数据和内部评测数据。Anthropic 相关公开报道也能看到这个行业趋势：早期围绕图书训练数据发生过版权诉讼；2025 年隐私政策变化后，Claude 的消费者聊天和 Claude Code 会话可在用户未退出时用于训练，但企业、教育、政府和 API 通道通常另有排除或合同约束。

这并不反驳 LeCun。它只说明闭源公司还能用专有数据池继续榨取 LLM 路线的增量。真正的问题是增量从哪里来：如果增量来自更多文字和更大模型，瓶颈会越来越硬；如果增量来自视频、机器人交互、动作条件预测、可验证推理和世界模型，那其实已经离开了纯 LLM scaling 路线。

AI 风险和开源：最有争议的一块

LeCun 关于 AI 风险的立场，比他的 LLM 批评更有争议。他反对把“更聪明”直接推成“想支配人类”。TIME 访谈里，他把这种推理称为谬误：支配欲、自保欲、权力冲动来自生物和社会演化，不是智能本身的必然属性。AI 系统的目标由人设定，没必要也不应该内置支配欲。

这不等于他认为 AI 永远安全。更准确的说法是：他把风险重点放在设计、部署、治理和用途上，而不是“智能自然产生征服意志”这个叙事上。WIRED 2026 年对 AMI 的报道里，他也强调，技术可以被用于好事或坏事，社会用途应由民主过程决定，而不是由少数公司负责人替社会裁决。

开源是同一立场的另一面。LeCun 认为未来每个人的信息入口都会被 AI assistant 中介；如果这种入口被少数闭源系统控制，就会影响语言、文化、价值和知识分发的多样性。因此，他支持开放平台和开放研究，理由不是浪漫化开源，而是把 AI 看成未来知识基础设施。

反方也很强。Bengio、Hinton、Stuart Russell 等研究者担心更强的通用模型会带来欺骗、失控、网络和生物安全等风险，认为能力增长必须配套更强治理和独立评估。LeCun 与他们的分歧不只是风险概率不同，更是因果模型不同：风险阵营强调工具性趋同和目标错配可能在强系统中涌现；LeCun 强调没有理由把支配、自保这类动机内置进系统，并相信开放生态和迭代工程能压低风险。

电子果蝇带来的启示

“电子果蝇”这个词在 2026 年有一层很热闹的创业公司叙事。The Verge 报道过 Eon Systems 的虚拟果蝇演示：公司宣称把 FlyWire connectome、简化神经元模型和 MuJoCo 身体模拟拼成了会走路、进食、整理身体的虚拟系统。但报道也指出，外部专家认为“上传动物”的说法过度夸张：没有论文、没有可复现实验、指标定义不清，也缺少神经递质、连接强度、身体和发育经验等关键细节。

比“果蝇被上传了”这种口号更值得关注的，是背后的科学路线。

2024 年 Nature 的 FlyWire 专刊发布了成年果蝇脑 connectome：约 14 万个神经元、5000 万级突触连接，并提供面向社区的浏览、标注和建模资源。随后 Nature 论文《A Drosophila computational brain model reveals sensorimotor processing》基于 connectome 和预测的神经递质身份，构建了果蝇全脑的 leaky integrate-and-fire 计算模型。这个模型不是做文本续写，而是在输入糖、水、苦味、机械刺激等感觉信号后，预测哪些神经元会激活、哪些运动输出会出现；研究者还用光遗传学和行为实验验证了一部分预测。

这类实验对 AI 的启示很直接。

第一，智能不是静态表征，而是感觉、状态、行动、反馈的闭环。一个小脑系统的意义，不在于它能不能复述世界，而在于它能把感觉输入变成运动输出，并在环境反馈中维持行为。

第二，连接图还不是世界模型。FlyWire 给了神经元和突触的结构，计算模型还需要神经递质、动力学假设、输入输出接口和实验校验。文章里也提到模型的偏差可能来自神经调质、神经肽、错误的递质预测或简化假设。这说明“有大规模参数”或“有完整连接”都不等于理解系统。结构必须进入动态闭环，才能解释行为。

第三，小系统适合做强验证。果蝇脑足够小，可以接近全量测绘；行为又足够丰富，可以检验从感觉到行动的转换。这样的系统更像 AI 研究需要的硬基准：给定输入，预测中间状态；扰动某个节点，预测行为变化；放到身体和环境里，观察闭环是否稳定。

第四，电子果蝇支持的是“世界模型 + 规划”的思想，而不是“复制生物脑就能得到 AGI”。Loihi 2 上的果蝇 connectome 神经形态仿真、2026 年的 Fly-connectomic Graph Model 等工作，展示了生物连接结构可以成为 embodied learning 的架构先验。但这些结果仍是早期研究，不能直接推出意识、心智上传或通用智能。

电子果蝇最有价值的地方，是把问题从“模型能不能生成像真的输出”推进到“模型能不能在闭环里预测、扰动、行动、验证”。这和 JEPA 的路线相呼应：表征要服务于预测，预测要服务于行动，行动要接受环境反馈。

最强反方观点：LeCun 可能对，也可能说重了

LeCun 的强判断有坚实部分：纯文本自回归模型确实缺少稳定的物理世界模型，缺少动作条件下的反事实推演，也缺少原生的持久记忆和成本驱动规划。把所有希望压在 LLM scaling 上，风险很高。

但“LLM 是死路一条”如果按字面理解，也说得过重。LLM 已经成为强大的语言接口、知识压缩器、代码工具和任务调度器。多模态模型、工具使用、检索、长期记忆、verifier、agent harness，都在把 LLM 从纯 token 续写推向更复杂的系统形态。JEPA 自身也还没有证明能独立承担通用智能：长时程规划、因果泛化、稳定训练、真实机器人迁移、成本函数设计，都仍是开放问题。

最强的 LLM 路线反驳大概有四点。第一，现代模型已经不再只是文本模型。图像、视频、音频、屏幕操作、工具反馈和强化学习正在进入训练循环。第二，外部工具、长期记忆、检索、verifier、代码执行和仿真环境，能把很多原本缺失的状态、行动和反馈补到系统层。第三，世界模型也可能从多模态预测和交互式训练中在大模型内部涌现，不一定要以 JEPA 或显式模块形式出现。第四，LeCun 的批评常常击中“裸 LLM”，但商业系统正在变成多模块 agent stack。

这些反驳能削弱“LLM 完全无关”的极端版本，却不能击穿 LeCun 的核心判断。因为 LeCun 批评的不是“语言模块不该存在”，而是“next-token prediction 作为中心目标是否足够”。如果一个系统靠视频、动作、记忆、仿真、工具、验证器和持续学习才获得更强能力，它已经承认单纯文本续写不够。争议只剩架构形态：这些能力是围绕 LLM 外挂，还是围绕世界模型重组。

更稳妥的结论是：

LLM 像一台强大的隐式贝叶斯文本推断机，擅长根据上下文选择高概率的语言与任务模式。它的限制不在“不会统计”，而在 posterior 的落点主要仍是文本延续。JEPA 试图把预测落点改成世界状态，把学习目标从表面模仿改成行动相关表征，把智能系统从生成器推进到可规划的世界模型。

在内容生成时代，模仿原始数据是有效路线；在具身智能、科学发现和长期自主行动时代，只模仿原始数据就是落后路线。闭源实验室可以靠专有数据、合成数据和用户交互继续推进 LLM，但数据池越大，越暴露目标函数的问题：世界不是 token 仓库，行动不是文本续写，创造也不只是重组陈述性知识。LeCun 的 JEPA 赌注真正押的不是某个模型名，而是这个判断：智能的核心不是把世界复述得更像，而是在内部预测世界会怎样变，并据此选择行动。