LeCun 视角下的 LLM 边界：贝叶斯推断与因果问题

LeCun 说 LLM 不是通往人类级智能的主路，最容易被误读成一句情绪判断。真正值得展开的是技术边界：LLM 到底能推断什么，不能推断什么；它的上下文学习为什么像贝叶斯推断；它为什么又不是一台真正的世界后验机器；它能处理因果话语，为什么仍然缺少可行动的因果模型。

这篇把 LeCun 对 LLM 的批评放到三个层面上：语言分布、贝叶斯式上下文学习、因果与规划。这样看，LLM 的强大和边界可以同时成立。

系列总纲见：LeCun 关于 LLM 与 AGI 的观点总集成。

LeCun 批评的不是“统计”

许多反驳 LeCun 的说法会走向一个靶子：LLM 当然不只是背语料，它们会泛化、会推理、会写代码、会在上下文中学新任务。这个反驳本身没错，但它没有击中 LeCun 的重点。

LeCun 并不否认统计学习很强。深度学习本身就是统计学习。LLM 的成功也确实说明，大规模自监督学习能从文本里抽出大量结构。问题在于：这种结构主要落在语言和陈述性知识空间里，而不是落在可行动的世界状态空间里。

换成训练目标，就是这条公式：

1	`pθ(next token \| context)`

自回归 LLM 学的是在上下文条件下，下一个 token 的概率分布。这足以产生很多能力：翻译、摘要、代码、问答、格式跟随、风格迁移、工具调用、数学题型、短程计划。原因很直接：人类把大量知识、推理过程、程序结构、社会规则和物理常识都写进了文本。

LeCun 的问题是，文本不是世界本身。文本是人类感知、抽象、命名、解释之后留下的痕迹。LLM 可以极其擅长预测这些痕迹，却没有被直接训练成“预测动作会怎样改变世界”的系统。

语言是世界的压缩投影

一句“杯子快从桌沿掉下去”看起来只是几个 token，背后已经包含一堆非语言结构：对象边界、支撑关系、重力、运动趋势、桌沿位置、跌落风险。写下这句话的人已经替模型完成了感知抽象和因果解释。

传感器流没有这么客气。视觉、触觉、声音、关节状态、力反馈、遮挡、摩擦、材料和速度同时存在，许多变量还不可见。同一个杯子被推向桌沿，下一秒可能停住、滑落、被手扶住、撞到另一个物体，也可能因为桌面材质变化走向不同轨迹。

LLM 学到的是“人类通常怎样说这些事”。世界模型要学的是“这些状态和动作怎样相互作用”。两者都可以叫预测，但预测对象不同：

1 2	`LLM: context -> next token world model: state + action -> future state`

这个区别很小，却足以解释许多现象。LLM 在文本化任务上很强，因为人类已经把答案形式写进语料。它在物理直觉、机器人、长期行动和实验反馈上不稳，因为这些任务需要直接面对状态转移。

LLM 像隐式贝叶斯推断机

LLM 的 in-context learning 很像贝叶斯推断。给模型几个输入输出样例，它会推断当前任务是什么；给它一种写作风格，它会延续风格；给它一段代码库上下文，它会推断局部 API 约定。Xie、Raghunathan、Liang、Ma 2021 年的论文把这种现象解释成 implicit Bayesian inference。

可以把 prompt 看成证据，把“当前任务/概念/生成规则”看成潜变量。模型在预训练中见过大量文档，每篇文档背后都有某种隐含概念；测试时，prompt 提供证据，模型据此推断最可能的潜在任务，再输出 posterior predictive：

1 2	`p(output \| prompt) = ∫ p(output \| concept, prompt) p(concept \| prompt) d(concept)`

这个解释很有力量。它说明 LLM 的“看几个例子就会”不一定是魔法，也不只是记忆。模型可能在预训练中学会了根据上下文反推出潜在规则。

这也是 LLM 最令人惊讶的地方：参数没有更新，任务表现却能随着上下文变化。模型在 forward pass 里完成了一种 amortized inference，把训练阶段学到的统计结构快速套到当前 prompt 上。

为什么这不是强意义贝叶斯机器

弱意义上，LLM 像贝叶斯推断机。强意义上，它不是一台完整的世界后验机器。

第一，prior 来自语料。模型的默认倾向不是自然界给出的先验，而是训练语料的频率、权威性、格式和偏见。上下文证据不足时，它会回到语料中常见的续写方式。

第二，evidence 主要是 token。文本证据能描述世界，却不是世界本身。一个机器人抓取失败，文字可以描述“夹爪滑了”，但真正决定失败的是接触点、摩擦系数、夹爪姿态、物体材质和运动误差。

第三，posterior 留在上下文窗口里。没有外部记忆或持续训练时，会话结束后，模型参数不会因为一次经验而改变。上下文中的“更新”只是激活状态和注意力模式的变化，不是模型对世界长期假设的持久修正。

第四，目标是真实文本概率，不是真值校准。模型可以生成语言上高度合理的回答，却没有外部状态约束。幻觉不是偶然小毛病，而是“生成高概率文本”和“维护世界事实一致性”之间目标错位的结果。

第五，uncertainty 不够可用。标准 LLM 输出 token 概率，但这个概率不等于经过校准的世界不确定性。一个答案的字面概率高，不代表现实中对应命题为真；一个低概率 token，也不等于命题不可信。

因此，LLM 的贝叶斯性主要体现在“根据上下文选择潜在语言/任务模式”。它不是显式维护世界状态后验、再用动作和观察持续修正后验的智能体。

因果话语和因果模型

LLM 能说因果，不等于有可行动的因果模型。

如果题目是文本形式的因果规则，比如“A 导致 B，B 导致 C，A 是否影响 C”，强模型通常能答对。医学、法律、经济、工程和物理语料里有大量因果陈述，LLM 能抽取这些模式，再组合到新语境里。

边界在干预。真正的因果模型要能处理 do(A) 这类问题：如果主动改变变量 A，而不是只观察 A 和 B 同时出现，B 会怎样变化。写成智能体任务，就是：

1	`state + intervention/action -> predicted future state`

自回归训练没有直接要求模型学习这件事。模型看到的是文本共现、论证模板和描述性因果。它没有原生地把动作当成改变环境状态的干预，也没有稳定识别世界里的可控变量、隐变量和混杂因素。

这就是为什么 LLM 可以写出很流畅的因果解释，却在真实环境里犯低级错误。它能说“不要把易碎杯子放在桌沿”，但如果机器人要真的移动杯子，就必须知道杯子位置、抓取角度、摩擦、速度、桌沿距离、夹爪误差和可能碰撞对象。因果解释必须落到动作条件预测里，才变成控制能力。

Causal world model 的意义

近年的 causal world model 工作，正是在补这块缺口。《Language Agents Meet Causality》这类论文的基本思路是：语言模型可以负责语义理解、目标表达和知识检索，但长期规划需要一个能模拟行动后果的 causal world model。

这个 causal world model 像一个可查询的模拟器。它不只回答“文本里通常会怎样”，还要回答：

如果把物体 A 移到 B 上，会不会遮挡 C。
如果先打开抽屉再拿物体，成功率是否比直接抓取高。
如果上一步失败，最可能的失败原因是哪一个变量。
如果隐藏变量发生变化，哪些观察能最快区分候选解释。

这些问题都带有干预结构。它们不能只靠语言顺滑度解决。LLM 可以生成假设，世界模型负责让假设接受状态和动作约束。

规划不是计划文本

LLM 擅长写计划。给它目标，它能拆步骤，列资源，安排顺序，甚至为每一步生成代码或工具调用。这让很多人直觉上觉得：LLM 已经会规划。

LeCun 关注的规划更窄，也更硬。规划是搜索候选行动，并根据内部模型预测它们的后果，再用成本函数比较未来。它至少需要三样东西：

state：当前世界状态，而不是只有文本上下文。
transition：动作如何改变状态。
cost：什么未来更好、什么未来应该避免。

LLM 的计划文本可以作为候选动作生成器，却不自动具备 transition model。它可以写“先打开门，再进入房间”，但如果门被卡住、门后有障碍物、把手损坏、地面湿滑，下一步行动必须根据新状态更新。没有世界模型，计划容易变成一次性叙述。

这也是 agent harness 的根本压力。外部工具、RAG、代码执行、浏览器、长期记忆、环境反馈，都在把 LLM 从纯文本续写推向闭环系统。系统越复杂，越说明裸 LLM 不够；它需要外部状态、工具和反馈来弥补训练目标的缺口。

Transformer 不等于 LLM 路线

LeCun 批评自回归 LLM，不等于宣告 Transformer 过时。Transformer 是一种表征计算结构：attention、feed-forward、residual、normalization 和位置编码可以用于文本、图像、视频、动作、记忆和多模态融合。

I-JEPA、V-JEPA 里同样可以使用 Vision Transformer 做 encoder 或 predictor。很多世界模型、视觉模型、机器人模型也会继续使用 Transformer。问题不在 attention 本身，而在“把 next-token prediction 当成智能中心目标”。

因此，更合理的判断是：Transformer 仍会留在系统里，但它的角色会变化。它可能是 encoder、latent predictor、memory reader、multimodal fusion layer，也可能是语言接口。它不必永远以聊天模型形态站在系统中心。

From Tokens to Thoughts 的旁证

2025 年 Shani、Soffer、Jurafsky、LeCun、Shwartz-Ziv 的《From Tokens to Thoughts》从另一个方向支持了这条边界。论文比较 LLM 和人类语义表征，发现 LLM 在大类边界上能与人类对齐，但在细粒度语义区分上仍有缺口。模型倾向于激进压缩统计结构，而人类会保留更多上下文细节。

这不等于 LLM 没有意义。它说明 LLM 很擅长把语料中的语义空间压成可用表征，却不必然等同于人类理解。尤其在需要细粒度语境、实体状态和因果约束的任务里，压缩方式会影响判断。

这条结果也能和 LeCun 的观点接上：如果模型主要通过文本压缩世界，它会在文本可表达、类别边界清楚、语料覆盖充分的地方很强；在状态细节、动作后果、未写出的物理约束上更容易掉边界。

Semantic Tube Prediction 的另一面

Huang、LeCun、Balestriero 2026 年的 Semantic Tube Prediction 更有意思。它不是简单反对语言模型，而是在语言内部引入 JEPA 式结构：把 token 序列视为语义流形中的轨迹，用管状语义约束提高数据效率。

这说明 LeCun 的路线不是“语言不重要”，而是“训练目标不能只剩下 token 续写”。即使在语言任务里，结构性归纳偏置也可能改善纯 scaling 的数据效率。论文里“scaling laws are descriptive, not prescriptive”这一层意思很关键：现有 scaling law 描述的是特定训练方式下的经验规律，不是所有学习路线的物理定律。

如果语言模型本身也需要更好的结构先验，那么“继续扩大同一目标函数”就更不像唯一答案。

LLM 的位置：接口、压缩器、候选生成器

LeCun 路线里的 LLM 不是废物。它可能承担四种重要角色。

第一，语言接口。人类目标、规则、反馈和偏好通常以语言给出，LLM 很适合把这些信息翻译成系统内部条件。

第二，知识压缩器。大量公共知识、API、代码模式、数学技巧、常识和制度规则都在文本里，LLM 是极好的知识检索和重组层。

第三，候选生成器。它可以提出计划、假设、工具调用、实验设计和代码补丁，再交给 verifier、world model 或真实环境检验。

第四，解释层。世界模型和机器人状态往往难以直接呈现给人，LLM 可以把内部状态、失败原因和替代方案表达成人能读懂的报告。

这些角色都很重要，但它们不要求 LLM 成为唯一中枢。一个更稳的架构会让 LLM 负责“说”和“组织知识”，让世界模型负责“预测”，让 planner 负责“选择”，让环境反馈负责“校正”。

小结

LLM 的边界不在“不会统计”，而在统计目标落点。它可以像隐式贝叶斯推断机一样，根据上下文推断潜在任务和语言模式；它也可以处理大量因果陈述，写出有条理的计划。但它默认维护的是文本延续分布，不是可行动的世界状态后验。

LeCun 的批评在这里最有分量：如果智能体要在世界里行动，只会预测人类怎样描述世界还不够。系统必须预测行动会怎样改变世界，能用反馈更新状态，能比较多个未来，能在失败后修正模型。

这不是 LLM 价值归零，而是角色降级。LLM 是强语言层，不是完整智能体的全部神经系统。

参考资料

Billy Perrigo, Meta’s AI Chief Yann LeCun on AGI, Open-Source, and AI Risk, TIME, 2024-02-13.
Sang Michael Xie, Aditi Raghunathan, Percy Liang, Tengyu Ma, An Explanation of In-context Learning as Implicit Bayesian Inference, arXiv, 2021.
John Gkountouras et al., Language Agents Meet Causality – Bridging LLMs and Causal World Models, arXiv, 2024.
Chen Shani, Liron Soffer, Dan Jurafsky, Yann LeCun, Ravid Shwartz-Ziv, From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning, arXiv, 2025.
Hai Huang, Yann LeCun, Randall Balestriero, Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA, arXiv, 2026.
Yann LeCun, A Path Towards Autonomous Machine Intelligence, OpenReview, 2022.
Emmanuel Dupoux, Yann LeCun, Jitendra Malik, Why AI systems don’t learn and what to do about it: Lessons on autonomous learning from cognitive science, arXiv, 2026.