LeCun 对 LLM 路线的批评,表面上常被说成“文本数据不够”。这个说法太浅。真正的问题不是网页快不够了,而是数据的形态、训练目标和学习闭环都不对。

更多文本可以让模型更会说,更多代码可以让模型更会写程序,更多用户交互可以让模型更会适应产品场景。但 human-level intelligence 需要的不只是更大的语料池。它需要系统从观察和行动中持续学习,能把失败转成经验,能把经验沉淀为世界模型,而不是部署后基本冻结。

电子果蝇看起来离 LLM 很远,其实刚好提供了一个反面参照:有连接图不等于有智能,有大模型不等于有世界模型。结构必须进入动态闭环,才能解释行为。

系列总纲见:LeCun 关于 LLM 与 AGI 的观点总集成

文本数据瓶颈说的是什么

Villalobos 等人的《Will we run out of data?》估计,如果 LLM 按既有趋势继续扩大,训练数据需求会在 2026 到 2032 年间接近公共人类文本的可用存量。这个判断不是说“明天模型就没法训练”,而是指出公共高质量文本不可能无限增长。

Chinchilla scaling law 进一步强化了这个压力。Hoffmann 等人的结论是,在给定训练算力下,参数量和训练 token 数量应该大致一起扩。早期大模型相对“欠训练”,参数很多,训练 token 不够。要把模型继续做大,不只是堆参数,还要更多高质量 token。

这两条放在一起,就是公共文本瓶颈:模型越大,越需要更多文本;公共文本增长有限;重复旧数据可以撑一段,但边际收益会下降。

这个瓶颈真实存在,但它不是 LeCun 批评的全部。即使公共文本无限多,纯文本自回归目标也不会自动变成行动条件世界模型。

闭源模型不会马上到头

“公共文本快不够”不等于“闭源模型马上结束”。闭源实验室仍然能从很多地方获得增量:

  • 授权书籍、新闻、论文、代码和专业数据库。
  • 用户聊天、代码会话和产品反馈,前提是政策、合同和用户选择允许。
  • 企业工作流数据,前提是客户授权或合同允许。
  • 多模态数据,包括图片、视频、音频、屏幕操作和软件使用轨迹。
  • 合成数据,包括经过人类、工具或 verifier 过滤的题目、证明、代码、轨迹和偏好样本。
  • 模型蒸馏数据,用更强模型的输出训练小模型或专用模型。

所以,“数据用完”不是一个简单终点。大型实验室会继续用授权、产品、合成、多模态和反馈数据延长 scaling 曲线。某些模型甚至会在远超 Chinchilla-optimal 的 regime 下训练,因为推理成本、部署收益和下游性能会改变最优策略。

但这只说明 LLM 路线还能继续榨出增量,不说明它能自然抵达人类级智能。LeCun 的判断仍然落在训练目标上:更多 token 仍然是在优化文本续写;更多多模态和动作数据如果真正有价值,往往已经把系统推向世界模型、工具闭环和 agent 架构。

“十万亿参数”应该谨慎说

围绕闭源模型,经常会出现“某公司正在训练十万亿参数模型”之类说法。这类数字很刺激,但公开证据通常不足。以 Anthropic 为例,截至公开资料,Claude 系列参数量并未完整公开,也没有一个被公司确认的“十万亿参数 Claude”训练数据清单。

更稳妥的写法是:如果某家闭源公司要训练十万亿级模型,数据大概率不会只来自公共网页。它会混合授权内容、代码、专业语料、用户反馈、多模态数据、合成数据、工具使用轨迹和经许可的企业数据。Anthropic 相关公开报道和隐私政策变化也显示,消费者聊天和 Claude Code 会话在用户未退出时可用于训练,而企业、教育、政府和 API 通道通常有不同排除或合同约束。

这类事实能说明行业在寻找新数据源,却不能证明“更大闭源模型会自然绕开 LeCun 的批评”。如果增量仍然围绕语言续写,问题只是推迟;如果增量来自视频、机器人、仿真、动作条件预测和持续反馈,路线已经不再是纯 LLM scaling。

合成数据不是免费午餐

合成数据会继续重要。数学题、代码任务、工具调用轨迹、推理链、偏好比较、红队样本,都可以由模型生成,再用 verifier、测试、专家或另一个模型筛选。

它的好处是规模大、可控、便宜,还能集中补弱点。代码可以跑测试,数学可以验证答案,工具调用可以检查结果,安全样本可以覆盖稀有风险。

但合成数据也有风险。没有外部真实信号时,模型可能把自己的偏差反复蒸馏,造成分布收缩、错误固化和多样性下降。模型生成的数据越多,越需要独立 verifier、真实环境反馈、人类检查或形式化约束来维持地面真值。

这和 LeCun 的世界模型路线并不冲突。合成数据可以成为训练材料,但智能体不能只在模型自己编出的文本里循环。它需要真实观察、真实行动和真实失败来校正内部状态。

自主学习:LeCun 更在意的瓶颈

Dupoux、LeCun、Malik 2026 年的自主学习论文,把问题说得更直接:当前 AI 系统一旦部署,基本不会自己学习。学习发生在部署前的预训练、微调和工程流程里;部署后的系统更多是在调用固定能力。

这和人类、动物完全不同。儿童不是先读完互联网再开始行动。动物也不是由工程师定期清洗数据、重训模型、重新发布版本。它们在观察、行动、失败和反馈中不断更新对世界的理解。

论文把学习拆成几个层次:从观察中学习的 System A,从主动行为中学习的 System B,以及调节学习和行动策略的 meta-control。这个拆分和 LeCun 的 AMI 路线一致:智能不只是大模型里存了多少知识,而是系统能不能在环境中持续更新。

当前 LLM 的缺口正是在这里。上下文学习能让模型在会话里适应任务,但这种适应通常不写回长期模型。RAG 可以把新资料塞进检索库,但检索不是理解。agent memory 可以保存摘要,但摘要不是世界模型。真正的自主学习要求系统把新观察和行动反馈整合进可复用状态结构。

为什么视频和机器人数据重要

如果文本是世界的压缩投影,视频和机器人数据就更接近世界本身。

视频包含对象持续性、运动、遮挡、接触和事件顺序。机器人数据额外包含动作和反馈:某个状态下采取某个动作,会出现什么结果。对 world model 来说,这种 action-conditioned data 比纯文本更接近核心任务。

V-JEPA 2 的训练结构正体现了这个思路:先从超过一百万小时视频里学习观察世界,再用少量机器人视频把表征接到动作条件预测上。这个比例很像动物学习:大部分知识来自观察,少量交互把观察变成可行动模型。

这不意味着视频和机器人数据自动解决智能。视频仍可能只是相关性,机器人数据昂贵且覆盖有限,仿真到现实有差距。但它们至少让训练目标接近“状态如何变化”,而不只是“文本如何延续”。

电子果蝇为什么值得放进 AI 讨论

“电子果蝇”听起来像偏题,实际很适合作为 LeCun 路线的参照。

2024 年 Nature 的 FlyWire 专刊发布成年果蝇脑 connectome,约 14 万个神经元和 5000 万级突触连接。这个结果很震撼,因为它给了一个复杂动物大脑的近完整结构图。相比 LLM 参数,这个系统小得多;相比 C. elegans,它又复杂得多。

随后,研究者基于 connectome、预测的神经递质身份和 leaky integrate-and-fire 神经元模型,构建了果蝇计算脑模型。这个模型不是做文本续写,而是在糖、水、苦味、机械刺激等感觉输入后,预测神经元激活和运动输出,并用光遗传学和行为实验验证部分预测。

这类实验重要,不是因为它“上传了果蝇”,而是因为它把结构、动力学、输入、输出和验证放在同一条闭环里。

Eon Systems 的 hype 说明了什么

2026 年,Eon Systems 的虚拟果蝇演示在社交媒体上很火。公司宣称把 FlyWire connectome、简化神经元模型和 MuJoCo 身体模拟拼成了会走路、进食、整理身体的虚拟系统。The Verge 的报道指出,外部专家认为“上传动物”的说法过度夸张:没有论文、没有可复现实验、指标定义不清,也缺少神经递质、连接强度、身体和发育经验等关键细节。

这个争议对 AI 很有启发。它说明结构本身不等于智能。拿到连接图,不等于拿到行为机制;拿到参数,不等于拿到世界模型;看到系统做出几个像样动作,也不等于它有稳健的内部解释。

一个脑模型要解释行为,至少需要:

  • 连接结构。
  • 神经元和突触动力学。
  • 神经递质、调质和可塑性。
  • 身体和环境接口。
  • 感觉输入与运动输出。
  • 可复现实验和扰动验证。

对应到 AI,一个大模型要成为智能体,也不能只有参数和语料。它需要状态、动作、反馈、记忆、目标、验证和持续学习。

Connectome 不是 world model

FlyWire 给的是连接结构。世界模型要求的是动态预测。两者关系密切,但不能混同。

连接图像硬件线路图,说明哪些节点可能影响哪些节点。world model 像可运行模拟器,回答给定输入、状态和扰动后,系统会怎样变化。没有动力学和环境接口,连接图只是静态结构;没有结构约束,动态模型又可能变成黑箱拟合。

这点对 LLM 也适用。模型参数像一种巨大结构,训练语料像经验痕迹,prompt 像当前输入。但如果系统不能把环境状态、动作和反馈接进持续预测回路,它仍然缺少 LeCun 所说的自主学习。

电子果蝇的价值,在于它迫使研究者面对“结构怎样变成行为”。这正是 AI 从语言模型走向行动系统时必须面对的问题。

小系统为什么适合强验证

果蝇脑的好处是小而复杂。它足够小,可以接近全量测绘;它又足够复杂,有视觉、嗅觉、运动、觅食、逃避和学习行为。这样的系统适合做强验证:

  • 给定感觉输入,预测哪些神经元会激活。
  • 扰动某个神经元或通路,预测行为怎样改变。
  • 把模型接到身体仿真里,检查闭环是否稳定。
  • 用实验数据反复校正模型,而不是只看输出像不像。

这比“让模型生成一段像果蝇的视频”更科学。它要求中间状态也接受验证。

AI 世界模型也需要这种精神。只看最终回答或生成视频,容易被表面质量迷惑。更强的评测应该检查内部状态预测、反事实干预、动作后果和失败恢复。

自主学习与“部署后冻结”

当前多数 AI 系统的生命周期仍然像软件发布:训练、评测、部署、收集问题、再训练、再部署。在线上会话中,它们可以检索、调用工具、保存记忆,但核心模型通常不会因为一次真实失败而立即改变。

这种模式对产品安全和工程稳定有好处,却和自主学习相距很远。一个家庭机器人如果每次碰倒杯子,都只是把事故日志上传给工程师,等待下个版本修复,它并没有像动物那样学习。真正的学习应该让系统在本地状态、长期记忆、世界模型或策略中形成可复用变化。

这也解释了 LeCun 为什么反复强调世界模型、记忆和规划。没有这些结构,反馈没有地方沉淀。LLM 可以把失败写成总结,但总结如果不改变未来预测和行动选择,就只是日志。

数据问题的三层结论

LeCun 视角下,数据问题至少有三层。

第一层是数量。公共文本有限,更多模型需要更多 token,闭源公司会继续寻找授权、用户、多模态和合成数据。

第二层是形态。文本是压缩后的描述,视频和机器人数据更接近世界状态和动作后果。只增加文本,不能自动补上物理世界经验。

第三层是闭环。离线数据再大,也不等于部署后持续学习。智能体要把新观察和行动反馈写回记忆、世界模型和策略。

LLM scaling 主要解决第一层。多模态和机器人数据开始触及第二层。AMI 路线真正想解决第三层。

小结

“数据快用完了”不是 LeCun 批评 LLM 的核心。更深的问题是:文本数据再多,仍然是世界的描述;自回归目标再强,仍然优化文本延续;部署流程再成熟,系统仍可能不会自己学。

电子果蝇提供了一个有趣镜像。完整连接图不等于智能,虚拟身体 demo 不等于上传动物,只有结构、动力学、输入输出和扰动验证进入闭环,才有资格谈行为解释。AI 也是一样:参数不等于世界模型,语料不等于经验,生成不等于理解。

LeCun 的路线真正押的是自主学习闭环。系统要从观察中学,从行动中学,从失败中学,把这些经验沉淀成能预测、能规划、能修正自己的世界模型。数据只是燃料,闭环才是引擎。

参考资料