Yann LeCun 近几年关于 LLM 和 AGI 的所有争议,核心不在“LLM 有没有价值”。他的判断一直更窄,也更尖锐:大语言模型会成为重要工具,会进入编程、写作、搜索、办公和人机交互,但把下一个 token 预测继续放大,不能自然推出人类级智能。

这个判断背后有一整套架构观。LeCun 不喜欢 AGI 这个词,更偏好 human-level intelligence、advanced machine intelligence 或 AMI。原因是“general”容易把问题说空,好像一个系统只要在足够多的文本任务上胜出,就已经接近通用智能。LeCun 真正在意的是另一组能力:理解物理世界,形成可预测的世界模型,拥有工作记忆和长期记忆,能推理,能分层规划复杂行动,并且能在部署后从观察和行动中继续学习。

LeCun 的观点不能压扁成“LLM 没用”,也不能压扁成“JEPA 必胜”。它更像一张系统架构图:LLM 是强大的语言接口、知识压缩器和工具层;完整智能体还需要能预测行动后果的 world model、能比较未来的 cost module、能保存经验的 memory、能选择动作的 planner / actor,以及能从真实反馈继续学习的闭环。

旧的 JEPA、VLA、贝叶斯、因果、Transformer、数据瓶颈和电子果蝇这些线索,都能放回这条主线里。它们不是互相独立的材料,而是在回答同一个问题:当前的 LLM 到底差在哪里,LeCun 想把智能系统的中枢换到哪里。

LeCun 关于 LLM、AGI 与世界模型的路线图

系列结构

这篇主文只做总集成:把 LeCun 对 LLM、AGI、AMI、世界模型、JEPA、VLA、贝叶斯推断、因果、数据瓶颈、电子果蝇和开源风险的观点放在同一张图里。几个密度更高的题目,拆成独立长文展开:

总览:不是反 LLM,而是反 LLM scaling 作为完整路线

话题 LeCun 的位置 常见误读
LLM 很有用,值得投资,但不是 human-level intelligence 的充分路线 “LeCun 认为 LLM 没用”
AGI 术语误导性强,人类智能本身也不真正 general “AGI 只是聊天模型继续变强”
AMI / HLI 更强调能力机制,而不是玄学式“通用” “换个名字而已”
世界模型 智能体要能预测世界如何随状态和行动变化 “世界模型等于生成逼真视频”
JEPA 一种在表征空间里做预测的世界模型路线 “JEPA 是世界模型的唯一定义”
VLA 有价值,但更像语言条件下的动作策略或 actor 层 “VLA 已经等于具身 AGI”
贝叶斯推断 LLM 像隐式贝叶斯文本推断机,但不是显式世界后验机器 “会 in-context learning 就等于理解世界”
风险和开源 他怀疑近期失控叙事,支持开放生态和民主治理 “LeCun 认为 AI 永远没有风险”

这一区分能避免一个常见混乱:LeCun 批评的是“把自回归文本模型放在智能系统中心”这条路线,不是批评语言模型作为部件。语言模型未来仍可能很重要,只是它未必是系统的核心状态模型。

他为什么不喜欢 AGI 这个词

LeCun 说不喜欢 AGI,理由不是修辞洁癖,而是概念边界问题。artificial general intelligence 暗示存在一种“通用智能”可以被直接追求。但人类智能并不真正 general。人类也有大量盲区,只是在物理世界、社会互动、语言、工具使用和长期学习上有一组高度耦合的能力。

这也是他常说“先到 cat-level intelligence,再谈 human-level intelligence”的原因。猫不会写论文,也不会解高等数学,但猫能从视觉、触觉、行动反馈中学到三维世界的稳定结构。它知道物体会掉下去,知道障碍物怎么绕,知道身体和环境之间的约束。当前的 LLM 拥有海量文字知识,却没有这种底层世界经验。

AGI 这个词把问题拉到“像不像人”上。LeCun 更关心“智能系统缺哪些机制”。在他的框架里,名字可以叫 AMI,也可以叫 human-level AI,但能力账本必须写清楚:世界模型、记忆、推理、规划、行动、持续学习。

缺失能力:世界、记忆、推理、规划、持续学习

TIME 2024 年访谈里,LeCun 把当前 AI 缺失的能力归纳得很直接:理解物理世界、规划达到目标的一系列行动、长时间推理、工作记忆。2026 年 Dupoux、LeCun、Malik 的自主学习论文又补了一层:当前 AI 部署后基本不会自己学习,学习流程被外包给人类工程师、数据清洗、预训练、微调和评测管线。

这几件事彼此咬合,不是互相独立的功能插件。

物理世界理解要求系统能形成对象、空间、材料、因果、遮挡、运动、可达性的表征。工作记忆让系统能在当前任务中保持状态,不只是靠 prompt 里的文字残影。长期记忆让经验能跨任务保留下来,而不是每次重新开始。推理需要能在内部状态上变换假设。规划需要比较候选未来的代价。行动让系统的预测接受环境反馈。持续学习则把反馈沉淀回模型或外部结构。

长上下文、RAG、工具调用、agent harness 都能补一部分短板,但在 LeCun 看来,这些更像围绕 LLM 的工程补强。补强可能非常有用,却不等于 LLM 本身已经学会了世界模型。

从 LLM 到 AMI:LeCun 到底在反对什么

TIME 2024 年访谈、《华尔街日报》2025 年 11 月报道、Business Insider 2025 年 Brooklyn 活动报道,以及 WIRED 2026 年 AMI 创业报道,指向同一条主线:单靠 scaling LLM 不会得到 human-level AI;world models 会成为更主流的 AI 架构方向;LLM 很有用,但不是通向 human-level intelligence 的道路,并且正在挤占其他路线的研究资源。

把这些采访放在一起,LeCun 的论点大致有四层。

第一,LLM 的基本能力来自对文本分布的建模。文本携带大量知识,LLM 因此能翻译、写作、编码、问答、调用工具,也能在许多任务上表现出推理迹象。但文本不是世界本身,文本也不会穷尽人和动物通过观察、行动、碰撞、失败获得的经验。

第二,智能体需要 world model。这个模型要能预测“如果状态是这样,采取某个动作后会发生什么”。它要支撑反事实推演和行动选择,不能只是简单续写,或者生成一段更像训练集的视频。

第三,规划需要成本函数、记忆和动作。一个系统要完成复杂任务,不能只问“下一个输出最像什么”,还要问“哪个未来状态代价更低”“哪个行动会把状态推向目标”“哪个中间状态应该避免”。LeCun 在 2022 年的路线图和 2023 年与 Anna Dawid 的论文里,都把 world model、cost、actor、memory、configurator 放在同一个架构里。

第四,JEPA 是实现 world model 的候选部件。I-JEPA、V-JEPA、V-JEPA 2、V-JEPA 2.1、LeWorldModel 这些工作都在验证同一个方向:从图像、视频或像素中学习潜在表征,再在潜在空间里预测缺失区域、未来状态或动作后果。

这里的关键词是“反表面模仿作为主路径”。如果目标是写一封邮件、改一段代码、生成一张图片,原始空间生成很有效;如果目标是造出能在物理世界里长期行动的智能体,只学会复刻训练数据表面就不够。

为什么 JEPA 不在原始空间里预测

所谓“原始空间”,指模型直接看到或直接输出的观测形式:图片里的像素、视频里的帧、语言里的 token、音频里的波形。自回归 LLM 在 token 空间里预测,扩散模型在像素或潜变量解码后的图像空间里生成,传统视频预测模型试图补全未来帧。它们的共同点是:目标函数要求模型尽量还原或生成可观察的表面。

这条路有一个根本麻烦:原始空间的信息熵太高。

一段视频里,一片树叶下一秒怎么抖、墙面纹理的噪声怎么变化、手指边缘的高光落在哪里,都有无数合法答案。给定同一个上下文,真实世界的未来不是单一答案,而是一簇可能状态。模型如果用均方误差去预测像素,多个合法未来会被平均成模糊结果;如果用生成式采样去覆盖这些细节,又会把大量计算花在与任务无关的变化上。

语言也有类似问题。同一个意思可以用许多句子表达。token 级预测必须把风格、措辞、语序、语气也纳入概率分布。它能学到很多结构,但目标本身仍然鼓励“生成一个合理续写”,而不是“形成一个可行动的世界状态”。

JEPA 的选择是把观测先编码成表征。图像、视频或其他输入经过 encoder 变成一个 latent representation;predictor 不去复原原始像素或下一个 token,而是预测目标区域、未来时刻或动作后状态在表征空间里的位置。损失函数比较的是预测表征和目标表征是否兼容,而不是每一个像素、每一个词是否完全对上。

这个改变看似小,技术意义很大。

在原始空间里,模型被迫回答:“缺失的所有细节是什么?”在表征空间里,模型回答的是:“对后续判断和行动有用的结构是什么?”前者会被高熵细节淹没,后者允许模型忽略不可预测、也不重要的部分。Meta 在 I-JEPA 和 V-JEPA 的介绍里反复强调这一点:JEPA 预测抽象表征,不预测像素;V-JEPA 是非生成模型,在视频的时空区域被遮住后,预测的是 latent space 中的表示。

一个简单例子足够说明差异。桌上有一个杯子,手正要推它。原始空间预测路线会尝试生成下一帧:杯子边缘的反光、桌面纹理、手指阴影都要交代。JEPA 更关心另一组变量:杯子还是不是一个对象,位置如何变化,是否接近桌沿,是否可能倒下,手的动作会怎样改变杯子的未来状态。这些变量不是原始像素,却更接近规划所需的信息。

所以,JEPA 在表征空间里预测,目的很务实:把预测目标从不可控的表面细节,转移到稳定、压缩、可用于行动的状态结构。

语言预测为什么显得更容易

LeCun 常把语言和现实世界放在一起对比:语言是离散符号,现实世界是连续、多维、带物理约束的动态系统。这个判断方向对,但容易被说得太粗。语言并不简单;它是人类已经压缩、离散化、命名、解释过的世界。

一句“杯子要从桌沿掉下去了”,已经把大量视觉信号、对象边界、支撑关系、重力、运动趋势和风险判断压成几个 token。LLM 预测下一个 token,本质上是在预测人类怎样描述这类情形。训练数据里的人类作者已经替模型完成了很多感知抽象、因果解释和语义标注。

现实世界没有这么客气。传感器流里同时有位置、速度、形状、材料、光照、遮挡、摩擦、受力、触觉和声音;许多变量不可见,许多未来同时合法。同一个杯子被推到桌沿,下一秒可能滑落、停住、被手扶住、撞到别的物体,也可能因为桌面材质和力度差异走向完全不同的轨迹。像素级预测要面对的是完整高维流,token 级预测面对的是人类已经整理过的描述。

不过,问题也不能简化成“离散符号容易,连续现实困难”。现代 LLM 的 token 虽然离散,内部 embedding 和 hidden state 仍是连续向量空间。2026 年 Huang、LeCun、Balestriero 的 Semantic Tube Prediction 论文甚至把 token 序列轨迹放到连续语义流形里分析,并指出传统 scaling law 更像描述当前训练方式的经验规律,不是最优训练路线的处方。分界不在离散和连续本身,而在预测对象:

1
2
LLM 预测:世界如何被人类表述
world model 预测:世界状态如何随时间和行动改变

这一区分解释了为什么 LLM 在语言、代码、数学题型和文本化常识上很强,却在具身行动、物理直觉和长期闭环上容易露出边界。语言是世界的文本投影,JEPA 想学的是世界状态的转移结构。

预测和规划:先进路线不只是“更会模仿”

原始数据模仿路线的强项,是学会数据长什么样。给足图文、代码、视频,它能生成越来越像样的文本、图像和短视频。这个能力很强,但它天然偏向被动:训练数据里某种情形之后经常出现什么,模型就学会生成相似的延续。

规划问题的结构不同。规划不是问“下一段最像训练数据的片段是什么”,而是问“如果选择动作 A、B、C,哪个未来状态更接近目标,哪个代价更低”。这需要模型具有动作条件下的状态转移能力。

JEPA 放在 LeCun 的完整架构里,大致承担这样的角色:

1
2
3
4
observation -> encoder -> latent state
latent state + candidate action -> predictor -> future latent state
future latent state -> cost module -> expected cost
planner / actor -> choose lower-cost action

这个循环接近 model-predictive control:先在内部模型里滚动多个候选未来,再根据成本选择动作,并把真实反馈写回状态和记忆。它不需要把每个候选未来都渲染成完整视频,也不需要靠语言链条把每一步“讲出来”。它只要在足够好的潜在状态空间里预测:采取某个动作之后,世界中相关变量会怎么变。

这就是预测-规划路线比单纯模仿路线先进的具体含义。先进不等于 JEPA 已经全面胜利;落后也不等于生成式模型没有用途。判断只针对“通向可规划智能体的主路线”。

原始空间模仿路线落后在四点。

一是预测目标太重。每一步都复刻可观察表面,会让模型背负大量无关细节。对行动选择来说,知道墙面纹理的每个像素不重要,知道障碍物位置、可通行空间、物体可抓取性更重要。

二是反事实能力弱。训练集续写回答的是“通常会怎样”,规划需要回答“如果这样做会怎样”。两者接近,但不相同。没有动作条件的世界模型,只能从相关性里猜未来,难以稳定支持干预。

三是闭环误差会累积。用生成模型一帧一帧地产生未来,再基于生成未来继续推演,很容易把小错误滚成大漂移。表征空间预测只保留任务相关变量,虽然也会犯错,但目标更窄,规划成本更低。

四是评估指标容易错位。文本像不像、视频真不真、图像细不细,不等于系统能不能选择正确动作。具身智能的评价应该看:能否预测行动后果,能否在新环境里少量试错,能否从失败中恢复,能否用内部模拟减少真实世界代价。

JEPA 的先进性在于目标变了:它不再把智能约化成“生成一个像训练数据的样本”,而是把智能拆成表征、预测、成本、行动和记忆之间的闭环。这个闭环还很早期,但它比单纯拟合原始数据表面更接近智能体的结构。

JEPA 是世界模型的唯一定义吗

不是。

世界模型是功能定义,不是架构商标。只要一个系统能学习环境的内部状态,并预测“在某个状态下采取某个动作之后,未来状态、观测、奖励或代价会怎样变化”,它就可以被叫作 world model。关键不是它叫不叫 JEPA,而是它能不能支持内部模拟、反事实推演和规划。

这个概念早于 JEPA。Ha 和 Schmidhuber 的 World Models、DeepMind 的 PlaNet、Dreamer 系列,都属于世界模型路线。PlaNet 从像素中学习 latent dynamics,再在 latent space 里做快速在线规划;Dreamer 把经验压成世界模型,并在紧凑状态空间里“想象”未来轨迹来学习行为。它们和 JEPA 一样,都不满足于直接从图像到动作的模仿,但实现方式不同:有的用生成式 latent dynamics,有的用 recurrent state-space model,有的预测 reward/value,有的预测 embedding。

JEPA 是 LeCun 偏好的世界模型实现路线之一。它的主张更窄:不要在原始空间里生成未来,而是在联合嵌入空间里预测兼容的未来表征。这个设计尤其适合处理高维感知输入,因为它允许模型丢掉与行动无关的细节,保留对象、关系、运动、可达性、稳定性这类结构。

所以,JEPA 不是世界模型的唯一定义。两者的关系可以压成两行:

1
2
world model = 能预测动作条件下未来状态的内部模型
JEPA = 一种非生成式、表征空间预测的 world model 路线

这一区分很重要。一个能生成逼真视频的模型,不必然是好的世界模型;如果它不能被动作条件化,不能支持稳定反事实推演,不能帮助选择低成本行动,它更像视觉生成器。反过来,一个不生成任何像素的 latent model,只要能预测状态转移并服务规划,也可以是强世界模型。

近期证据链:从 I-JEPA 到 V-JEPA 2.1

I-JEPA、V-JEPA、V-JEPA 2、V-JEPA 2.1 和 LeWorldModel,构成了 LeCun 路线近几年的技术证据链。它们没有证明“JEPA 已经通往 AGI”,但不断把问题从“能不能学到好表征”推向“能不能预测、规划、行动”。

I-JEPA 的重点是图像。它不重建被遮住的像素,而是在抽象表征里预测缺失区域。Meta 2023 年的介绍把它放在 LeCun 的核心主张下:智能系统应该学习世界的内部模型,而不是把所有精力花在生成像素级细节上。

V-JEPA 把对象换成视频。视频比图片更接近物理世界,因为它包含时间、运动、遮挡和对象交互。V-JEPA 仍然不是生成模型,它预测的是视频片段在 latent space 中的表示。这个选择和 LeCun 的路线高度一致:如果目标是规划,系统不必知道树叶下一帧每个像素怎么抖,但必须知道对象、关系和运动趋势如何变化。

V-JEPA 2 继续往行动靠近。论文和 Meta 技术介绍里最关键的数字不是单一榜单分数,而是训练结构:先用超过一百万小时视频和一百万张图像做 actionless self-supervised pre-training,再用不到 62 小时的机器人视频做 action-conditioned training。V-JEPA 2-AC 随后在两个实验室的 Franka 机械臂上做 zero-shot pick-and-place,用图像目标和 model-predictive control 做规划,不需要在部署环境重新采集任务数据,也不需要任务特定 reward。

V-JEPA 2.1 和 LeWorldModel 又补了两个方向。V-JEPA 2.1 强调 dense features,让视频表征更有空间和时间结构;LeWorldModel 则试图解决 JEPA 从原始像素端到端稳定训练的问题,用较少损失项和紧凑模型在控制任务中做快速规划。这些工作都还处在研究阶段,但它们把 LeCun 的观点落到了可检验命题上:表征是不是携带物理结构,预测是不是动作条件化,规划是不是比单纯模仿更有效。

这条证据链也有清楚的负面证据。Meta 发布 V-JEPA 2 时同时强调,当前模型在物理推理上仍显著落后于人类;在 IntPhys 2 这类违反物理预期测试上,许多视频模型接近随机水平。这个缺口说明世界模型路线没有完成,但也说明问题本身很具体:不是让模型说得更像,而是让模型在物理违反、动作后果、长期一致性和新环境迁移上过关。

VLA 机器人架构为什么还不够

机器人领域的 VLA,Vision-Language-Action,是 LLM/VLM 路线向具身智能延伸后的代表。RT-2 把机器人动作编码成 token,让视觉语言模型在看图和读指令后直接输出动作;OpenVLA 用开源 7B 模型和 97 万条真实机器人示范做通用操控策略;π0 则把预训练 VLM 接上 flow matching action head,直接输出连续动作轨迹,试图解决高频、灵巧控制问题。

这些工作很重要。它们证明大规模视觉语言预训练确实能把语义知识迁移到机器人:识别新物体、理解空间关系、执行未在机器人数据里直接出现过的指令。RT-2 论文里也明确说,VLA 可以把 web-scale 视觉语言知识接入低层机器人控制。

但从 LeCun 的标准看,VLA 更像“语言条件下的动作策略”,不是完整世界模型。

第一个缺陷是缺少显式预测环。典型 VLA 的主接口是:

1
image + instruction -> action

它学习的是在这个视觉上下文和语言指令下,人类示范数据里常出现什么动作。它可以很强,但核心仍是 policy imitation。世界模型需要的是:

1
state + candidate action -> predicted future state -> cost -> selected action

两者差异很大。VLA 直接给动作,JEPA/世界模型先预测行动后果,再让 planner 比较候选未来。前者更像熟练反射,后者才有内部试错。

第二个缺陷是受示范分布限制。RT-2 论文已经承认,模型的 physical skills 仍然受机器人数据中出现过的技能分布限制。VLA 能把“把苹果放到数字 3 上”这种语义泛化做好,不代表它已经理解摩擦、重心、遮挡、碰撞和物体可变形性。一个没见过的接触动力学、一个滑动的桌面、一个夹爪误差,都可能把直接策略带出训练分布。

第三个缺陷是动作表示本身会丢信息。RT-2 和 OpenVLA 这类模型把连续动作离散成 token,训练方便,但空间精度和时间分辨率会被量化影响。FAST 论文指出,常见的逐维、逐时间步分箱,在高频灵巧技能上表现很差。π0 这类连续动作/flow matching 路线缓解了这个问题,但它主要改进的是 action decoder,不自动补上动作条件世界模型。

第四个缺陷是长程任务容易把规划外包给语言。VLA 可以输出一串动作,也可以由上层 VLM/LLM 生成子任务,但如果内部没有可反复滚动的状态转移模型,长程任务就会退回“语言计划 + 反应式控制”。这在整理桌面、开抽屉、叠衣服这类任务里尤其明显:每一步的真实物理反馈都会改变下一步的可行空间,光靠语义计划不够。

第五个缺陷是失败解释和修复能力弱。一个 VLA 抓取失败后,可以再看一眼、再输出动作;但如果它没有预测“为什么失败”和“哪个动作会改变失败条件”的内部模型,它的修复更多是重新采样策略,而不是基于反事实原因调整行动。

因此,VLA 不是错路,也不是没有价值。它很可能会成为未来机器人系统里的 actor、语言接口或快速反应层。但把 VLA 当作完整智能体路线,就会落回 LeCun 批评的模式:把“看见上下文后生成最像示范的动作”误当成“理解世界并规划未来”。更稳的架构应当把 VLA 的语义能力、连续控制能力,与 JEPA/Dreamer/PlaNet 这类动作条件世界模型结合起来。

LLM 是贝叶斯推断机器吗

可以说是,但只能在弱意义上说。

自回归 LLM 输出的是条件分布:

1
pθ(next token | context)

如果上下文里有几个样例,模型会根据这些样例推断当前任务、语体、概念和隐含规则。Xie、Raghunathan、Liang、Ma 在 2021 年的论文《An Explanation of In-context Learning as Implicit Bayesian Inference》中,把 in-context learning 解释成一种隐式贝叶斯推断:模型在预训练中学会根据长文本推断潜在概念,测试时则根据 prompt 中的样例推断共享的潜在任务。

形式上可以写成:

1
2
p(output | prompt)
= ∫ p(output | concept, prompt) p(concept | prompt) d(concept)

这个式子很有解释力。Prompt 里的例子越多,模型越可能把 posterior 集中到正确的潜在任务上,于是表现出“看几个例子就学会”的能力。许多 LLM 的上下文学习、风格迁移、格式跟随,都可以从这个角度理解。

但强意义上的“贝叶斯机器”并不成立。

LLM 没有显式维护一个关于真实世界的 posterior。它没有把参数当作随机变量来做完整后验更新,也不会在一次对话中真正重估所有世界假设。它做的是 amortized inference:训练阶段把大量数据里的统计结构压进参数,推理阶段用激活状态和注意力在当前上下文里近似选择某些模式。这个过程像贝叶斯 posterior predictive,但不是严格的、可校准的、关于世界本体的贝叶斯推断。

它的天然限制也在这里。

第一,prior 来自训练语料。语料里高频、权威、套路化的模式会成为模型的默认倾向。上下文证据不足时,模型更容易回到训练分布里的常见续写。

第二,evidence 主要是 token。文本证据能描述世界,但不是世界本身。物体撞击、摩擦、重力、遮挡、可抓取性、身体姿态这些信息,在纯文本里是压缩过的二手材料。

第三,更新发生在上下文窗口里。没有外部记忆、工具、检索或持续训练时,模型只能在有限上下文里改变当前输出分布。会话结束后,参数并没有因为这次经验而改变。

第四,目标是续写概率,不是真值校准。一个回答可能在语言上很像正确答案,却没有被外部世界验证。幻觉不是偶然 bug,而是“生成高概率文本”和“保持事实为真”之间目标不一致的表现。

第五,长程规划会变成 token 链条上的脆弱搜索。模型可以写计划,也可以模拟推理,但每一步仍然是语言分布里的下一步。没有独立的状态模型、成本模型和动作模型时,规划很容易被叙述顺滑度替代。

所以,LLM 可以像一台隐式贝叶斯推断机:它根据上下文推断潜在任务,再给出 posterior predictive 式的输出。它不是一台足够的世界推断机:它的后验主要投影在文本延续上,而不是投影在可行动的物理状态上。

因果推理:能说因果,不等于会做干预

把 LeCun 的批评翻成因果语言,可以得到一个很尖锐的判断:当前 LLM 能处理大量因果话语,但缺少稳健的、可用于行动的因果模型。

这句话不能理解成“LLM 完全不会因果推理”。如果题目写成文本规则,例如“A 导致 B,B 导致 C,A 是否影响 C”,模型可以给出正确答案。医学、法律、代码、物理题里常见的因果关系,也大量存在于训练语料中。LLM 可以从这些陈述性知识里抽取模式,把旧概念组合到新语境里。

边界在于干预。真正的因果推理不只问“文本里通常怎么说”,还要问“如果对变量 A 做干预,变量 B 会怎样变”。写成图式,大致是:

1
state + intervention/action -> predicted future state

自回归 LLM 的主目标不是这个。它学到的是在上下文条件下输出高概率文本;它没有显式识别环境中的因果变量,也没有把动作当成改变世界状态的干预来训练。文本中的因果知识可能完整,也可能缺失、过时、混入偏见,到了具体环境里还可能根本不适用。

这也是近年的 causal world model 工作要把 LLM 和因果表征学习接起来的原因。《Language Agents Meet Causality》这类论文的基本判断是:LLM 可以提供语言接口和常识,但长期规划需要一个能模拟行动后果的 causal world model。那个模型像一个可查询的模拟器,让语言模型不只是在文本里说“如果……会怎样”,而是在潜在状态里评估多个可能未来。

所以,LLM 的泛化主要发生在语言和陈述性知识空间里。它可以把“人类已经写下来的因果关系”重新组织得很强,但这和“通过行动发现因果、用干预预测未来、根据失败修正模型”仍是两种能力。LeCun 说 LLM 不是通向 human-level intelligence 的主路,核心就在这里:智能体需要的是因果闭环,不只是因果陈述。

这种限制会不会影响 Transformer 的未来

会影响自回归 LLM 路线,但不等于 Transformer 没未来。

Transformer 是一种计算结构:注意力、前馈层、位置编码、残差连接和归一化,把序列或 patch 映射成表征。LLM 是把 Transformer 用在 token 自回归生成上。V-JEPA、I-JEPA 里同样可以用 Vision Transformer 做 encoder 或 predictor。LeCun 针对的不是 attention 机制本身,而是把“预测下一个离散 token”当成通用智能的核心训练目标。

未来更可能出现混合分工。

LLM 继续负责语言接口、代码、知识压缩、工具调用和人机交互。世界模型负责感知、状态预测、物理约束、动作后果和低成本内部模拟。Transformer 仍可能作为 encoder、memory、latent predictor、multimodal fusion 的关键部件,只是它不再必然以“聊天模型”的形态站在系统中心。

因此,“LLM 的贝叶斯式上下文推断有天然限制”影响的是技术路线的权重:单纯扩大 token 模型的边际收益会下降;让模型接入视频、动作、记忆、工具、仿真和验证循环,会变得更重要。Transformer 仍会留下,问题出在“只要把下一个 token 预测放大,就会自然得到完整智能体”的叙事。

LLM 在未来系统里还有位置

LeCun 的路线不要求把 LLM 从未来 AI 系统里拿掉。更合理的分工是让 LLM 做自己擅长的部分。

LLM 可以承担语言接口,把人的目标、约束和反馈翻译成系统可处理的条件。它可以做代码生成、工具调用、文档检索、知识压缩和任务分解。它也可以和视觉、动作、世界模型对齐,成为多模态系统的解释层或控制层。V-JEPA 2 论文里就有把视频模型与大语言模型对齐后提升视频问答的结果,这说明语言层和世界模型路线并不冲突。

冲突只发生在“谁是中枢”的判断上。LLM-first 路线倾向于把其他能力变成聊天模型外围工具;LeCun 的路线倾向于把 LLM 放在接口层,把状态预测、行动选择和持续学习交给世界模型、成本模块、记忆和规划器。

这个分工也能解释为什么他既批评 LLM scaling,又不反对继续投资 LLM。语言系统会是未来智能体的必要外壳,但外壳不等于身体、记忆、环境模型和行动控制。

描述性科学和创造性

LeCun 对 LLM 路线的另一个批评,可以概括成“描述性太强,生成机制太弱”。这里的“描述性”不是说 LLM 只能背百科,也不是说它写不出新句子。它指的是:模型主要学习人类如何描述世界、解释问题、写出答案,而不是直接学习世界内部状态如何变化。

描述性科学擅长整理现象:哪些话经常一起出现,哪些解释听起来合理,哪些模式在语料中高频。机制式科学追问另一件事:哪些变量真的在起作用,干预哪个变量会改变结果,哪个实验能区分两个竞争解释。LLM 可以生成假说、列出解释、写出实验计划,但裸模型没有原生实验闭环,也没有把真实反馈自动纳入世界模型的机制。

因此,LLM 不是没有创造性。它很擅长组合式创造:把概念、风格、代码模式、类比和案例重新拼成新的文本或方案。许多写作、编程、设计、检索、综述任务,正是靠这种组合式创造产生价值。

LeCun 怀疑的是另一种创造性:机制式创造。科学上的新东西不只是从旧文本里拼出一句新话,而是提出一个能解释、预测、干预、验证的结构。牛顿力学、进化论、相对论、现代遗传学的创造性,都不止在语言表达上,而在表征方式和因果机制上。一个智能体如果只能在文本空间里生成“看起来像新理论”的段落,却不能把新假说放进环境里试验、预测失败、修正状态模型,它的创造力就停在描述层。

这也解释了为什么“数据更多”不必然等于“科学创造更强”。更多文本可以提升组合空间,更多代码轨迹可以提升工具使用,更多问答可以提升陈述性知识覆盖。但如果目标仍是预测 token,模型改进的是描述世界的能力;要走向机制式创造,就要让模型学会预测行动后果、设计干预、吸收实验反馈,并把这些反馈沉淀为可复用的世界模型。

数据用完是不是意味着闭源模型路线到头

这要分三层看。

第一,公共高质量文本确实正在变成瓶颈。Villalobos 等人在《Will we run out of data?》里估计,如果 LLM 按既有趋势继续扩大,对公共人类文本的训练需求会在 2026 到 2032 年间接近可用存量。Chinchilla scaling law 又强化了一个现实:在给定算力下,参数和训练 token 都要一起扩。模型越大,越需要更多高质量 token;重复旧数据可以撑一段,但重复过多后边际收益会衰减。

第二,“数据瓶颈”不等于“闭源模型马上到头”。闭源实验室还能继续拿到几类数据:购买或授权的书籍、新闻、论文、代码和专业数据库;受政策和用户选择约束的聊天、代码会话和产品反馈数据;经客户授权或合同允许的企业工作流数据;多模态数据,包括图片、视频、音频和屏幕操作轨迹;合成数据,包括模型生成后经过人类、工具或 verifier 筛选的题目、证明、代码和推理轨迹;还有模型蒸馏数据,也就是从更强模型的输出中训练较小或专用模型。

第三,按照 LeCun 的说法,这些数据只能延长 LLM 路线,不会自动解除路线本身的问题。更多文本、更长代码轨迹、更多聊天记录,可以让模型更会说、更会写、更会操作电脑界面;但如果训练目标仍然主要是 token 续写或示范动作模仿,它学到的仍然主要是语言和行为分布。物理世界里的动作后果、因果干预、长期状态记忆、可验证规划,不会因为“又多了几万亿 token”自动出现。

Anthropic 的“十万亿参数模型”尤其要谨慎。截至公开资料,Anthropic 没有确认 Claude 系列的参数量,也没有公开一个“十万亿参数 Claude”或“十万亿参数 Anthropic 模型”的训练数据清单。把这个数字当事实,需要标注为传闻、外部估算或未证实说法。

如果假设某家闭源公司真要训练十万亿级模型,数据来源大概率不会只是公共网页。它会混合公开 web、授权内容、图书、代码、数学与科学语料、用户反馈、合成数据、多模态数据、工具使用轨迹、经许可的企业数据和内部评测数据。Anthropic 相关公开报道也能看到这个行业趋势:早期围绕图书训练数据发生过版权诉讼;2025 年隐私政策变化后,Claude 的消费者聊天和 Claude Code 会话可在用户未退出时用于训练,但企业、教育、政府和 API 通道通常另有排除或合同约束。

这并不反驳 LeCun。它只说明闭源公司还能用专有数据池继续榨取 LLM 路线的增量。真正的问题是增量从哪里来:如果增量来自更多文字和更大模型,瓶颈会越来越硬;如果增量来自视频、机器人交互、动作条件预测、可验证推理和世界模型,那其实已经离开了纯 LLM scaling 路线。

AI 风险和开源:最有争议的一块

LeCun 关于 AI 风险的立场,比他的 LLM 批评更有争议。他反对把“更聪明”直接推成“想支配人类”。TIME 访谈里,他把这种推理称为谬误:支配欲、自保欲、权力冲动来自生物和社会演化,不是智能本身的必然属性。AI 系统的目标由人设定,没必要也不应该内置支配欲。

这不等于他认为 AI 永远安全。更准确的说法是:他把风险重点放在设计、部署、治理和用途上,而不是“智能自然产生征服意志”这个叙事上。WIRED 2026 年对 AMI 的报道里,他也强调,技术可以被用于好事或坏事,社会用途应由民主过程决定,而不是由少数公司负责人替社会裁决。

开源是同一立场的另一面。LeCun 认为未来每个人的信息入口都会被 AI assistant 中介;如果这种入口被少数闭源系统控制,就会影响语言、文化、价值和知识分发的多样性。因此,他支持开放平台和开放研究,理由不是浪漫化开源,而是把 AI 看成未来知识基础设施。

反方也很强。Bengio、Hinton、Stuart Russell 等研究者担心更强的通用模型会带来欺骗、失控、网络和生物安全等风险,认为能力增长必须配套更强治理和独立评估。LeCun 与他们的分歧不只是风险概率不同,更是因果模型不同:风险阵营强调工具性趋同和目标错配可能在强系统中涌现;LeCun 强调没有理由把支配、自保这类动机内置进系统,并相信开放生态和迭代工程能压低风险。

电子果蝇带来的启示

“电子果蝇”这个词在 2026 年有一层很热闹的创业公司叙事。The Verge 报道过 Eon Systems 的虚拟果蝇演示:公司宣称把 FlyWire connectome、简化神经元模型和 MuJoCo 身体模拟拼成了会走路、进食、整理身体的虚拟系统。但报道也指出,外部专家认为“上传动物”的说法过度夸张:没有论文、没有可复现实验、指标定义不清,也缺少神经递质、连接强度、身体和发育经验等关键细节。

比“果蝇被上传了”这种口号更值得关注的,是背后的科学路线。

2024 年 Nature 的 FlyWire 专刊发布了成年果蝇脑 connectome:约 14 万个神经元、5000 万级突触连接,并提供面向社区的浏览、标注和建模资源。随后 Nature 论文《A Drosophila computational brain model reveals sensorimotor processing》基于 connectome 和预测的神经递质身份,构建了果蝇全脑的 leaky integrate-and-fire 计算模型。这个模型不是做文本续写,而是在输入糖、水、苦味、机械刺激等感觉信号后,预测哪些神经元会激活、哪些运动输出会出现;研究者还用光遗传学和行为实验验证了一部分预测。

这类实验对 AI 的启示很直接。

第一,智能不是静态表征,而是感觉、状态、行动、反馈的闭环。一个小脑系统的意义,不在于它能不能复述世界,而在于它能把感觉输入变成运动输出,并在环境反馈中维持行为。

第二,连接图还不是世界模型。FlyWire 给了神经元和突触的结构,计算模型还需要神经递质、动力学假设、输入输出接口和实验校验。文章里也提到模型的偏差可能来自神经调质、神经肽、错误的递质预测或简化假设。这说明“有大规模参数”或“有完整连接”都不等于理解系统。结构必须进入动态闭环,才能解释行为。

第三,小系统适合做强验证。果蝇脑足够小,可以接近全量测绘;行为又足够丰富,可以检验从感觉到行动的转换。这样的系统更像 AI 研究需要的硬基准:给定输入,预测中间状态;扰动某个节点,预测行为变化;放到身体和环境里,观察闭环是否稳定。

第四,电子果蝇支持的是“世界模型 + 规划”的思想,而不是“复制生物脑就能得到 AGI”。Loihi 2 上的果蝇 connectome 神经形态仿真、2026 年的 Fly-connectomic Graph Model 等工作,展示了生物连接结构可以成为 embodied learning 的架构先验。但这些结果仍是早期研究,不能直接推出意识、心智上传或通用智能。

电子果蝇最有价值的地方,是把问题从“模型能不能生成像真的输出”推进到“模型能不能在闭环里预测、扰动、行动、验证”。这和 JEPA 的路线相呼应:表征要服务于预测,预测要服务于行动,行动要接受环境反馈。

最强反方观点:LeCun 可能对,也可能说重了

LeCun 的强判断有坚实部分:纯文本自回归模型确实缺少稳定的物理世界模型,缺少动作条件下的反事实推演,也缺少原生的持久记忆和成本驱动规划。把所有希望压在 LLM scaling 上,风险很高。

但“LLM 是死路一条”如果按字面理解,也说得过重。LLM 已经成为强大的语言接口、知识压缩器、代码工具和任务调度器。多模态模型、工具使用、检索、长期记忆、verifier、agent harness,都在把 LLM 从纯 token 续写推向更复杂的系统形态。JEPA 自身也还没有证明能独立承担通用智能:长时程规划、因果泛化、稳定训练、真实机器人迁移、成本函数设计,都仍是开放问题。

最强的 LLM 路线反驳大概有四点。第一,现代模型已经不再只是文本模型。图像、视频、音频、屏幕操作、工具反馈和强化学习正在进入训练循环。第二,外部工具、长期记忆、检索、verifier、代码执行和仿真环境,能把很多原本缺失的状态、行动和反馈补到系统层。第三,世界模型也可能从多模态预测和交互式训练中在大模型内部涌现,不一定要以 JEPA 或显式模块形式出现。第四,LeCun 的批评常常击中“裸 LLM”,但商业系统正在变成多模块 agent stack。

这些反驳能削弱“LLM 完全无关”的极端版本,却不能击穿 LeCun 的核心判断。因为 LeCun 批评的不是“语言模块不该存在”,而是“next-token prediction 作为中心目标是否足够”。如果一个系统靠视频、动作、记忆、仿真、工具、验证器和持续学习才获得更强能力,它已经承认单纯文本续写不够。争议只剩架构形态:这些能力是围绕 LLM 外挂,还是围绕世界模型重组。

更稳妥的结论是:

LLM 像一台强大的隐式贝叶斯文本推断机,擅长根据上下文选择高概率的语言与任务模式。它的限制不在“不会统计”,而在 posterior 的落点主要仍是文本延续。JEPA 试图把预测落点改成世界状态,把学习目标从表面模仿改成行动相关表征,把智能系统从生成器推进到可规划的世界模型。

在内容生成时代,模仿原始数据是有效路线;在具身智能、科学发现和长期自主行动时代,只模仿原始数据就是落后路线。闭源实验室可以靠专有数据、合成数据和用户交互继续推进 LLM,但数据池越大,越暴露目标函数的问题:世界不是 token 仓库,行动不是文本续写,创造也不只是重组陈述性知识。LeCun 的 JEPA 赌注真正押的不是某个模型名,而是这个判断:智能的核心不是把世界复述得更像,而是在内部预测世界会怎样变,并据此选择行动。

参考资料