2026 年 5 月 17 日,新浪转载了李航、张少华、林苑的一篇文章《大语言模型为什么能像人一样说话和思考?》。这篇文章有一个很好的切入点:它没有停在“LLM 是不是鹦鹉学舌”这种二元争论里,而是把问题拆成三层:LLM 表现出来的语言与推理能力是什么;这些能力如何由训练目标、模型结构、算法和数据共同形成;现有可解释性研究能否从模型内部看到一些机制证据。

这篇文章最值得延展的地方,不是“LLM 已经像人一样思考”这个标题式问题,而是它背后的一个判断:Next Token Prediction 只是表层形式,真正的能力来自大规模统计学习在语言结构中压出的高阶模式。但这里还需要再补一层区分:语言能力和思考能力不是同一件事。语言能力负责理解、组织和生成符号;思考能力负责在符号背后维持目标、约束、变量、因果关系和推理路径。二者在人类身上高度纠缠,在 LLM 身上也高度纠缠,但机制分析时必须分开。否则很容易把“说得像人”误判成“想得像人”,也容易把“推理失败”误判成“语言能力失败”。如果把这个判断继续往下挖,会看到 2022 年以来 mechanistic interpretability 的几条线索:superposition、Sparse Autoencoder、monosemantic feature、Cross-Layer Transcoder、attribution graph,以及张少华、林苑、李航在 2025 年提出的 Function Token Hypothesis。

这些研究没有把黑箱完全打开,但足够改变一个粗糙的说法:LLM 不是“只会接下一个词”的玩具,也不是“已经有心智和意识”的新物种。它更像一种由语言数据、Transformer 结构、梯度优化和后训练策略共同塑形出来的高维特征机器。它的“像人”来自两类能力的耦合:一类是把上下文变成可接受表达的语言能力,另一类是在生成过程中维持问题结构、寻找中间状态、调度知识和约束的思考能力。它不像人,则是因为这两类能力仍然发生在 token、激活向量和参数空间里,不具备人的身体、经验、意识和对事实的直接锚定。

“像人”首先是一种行为现象,不是机制结论

LLM 给人的第一印象很容易被过度解释。它能接住上下文,能写代码,能解释概念,能按照格式回答问题,也能输出看起来像推理过程的思维链。对于普通用户来说,这些行为已经足够接近“理解”和“思考”。但从机制角度看,行为相似不能直接推出机制相同,更不能把语言流畅和思考可靠混成一件事。

更稳妥的表述是:LLM 在大量任务上同时表现出类人的语言使用能力和部分推理能力。语言使用能力体现在读懂指令、接住语境、选择语体、组织段落、生成合乎语法和语用期待的句子。推理能力体现在保留目标、拆解问题、绑定变量、维护约束、调用知识、比较方案和形成中间结论。这里的“类人”描述的是外部行为,不等于内部机制。人的语言与思考嵌在感知、行动、记忆、社会互动和意识经验里;LLM 的语言与思考则嵌在 token 序列、模型参数、激活向量和生成策略里。两者可以在输出层面相似,却不必在底层实现上相同。

李航等人的文章抓住了这个分野。它承认 LLM 的实现原理是清楚的:预训练、后训练、Transformer、梯度优化、token 生成。但同时也强调 LLM 的工作机制还没有被充分理解。这里的“实现原理”和“工作机制”不是一回事。前者回答系统怎么搭起来,后者回答模型内部到底怎样表示知识、调度特征、形成推理路径。

这也是当前 LLM 研究里最重要的张力:工程上已经能造出很强的模型,科学上还没完全解释模型为什么这么强。

高阶模式:语言形式里确实压着内容

“LLM 只是统计模型”这句话本身没错,但它经常被说得太浅。统计规律不是只包括词频、搭配和语法模板。足够大的语言数据里也包含语义关系、语用规则、世界知识、社会常识、数学证明、程序结构、论证方式和任务分解模式。统计学习如果规模足够大,模型结构足够强,就不只会学到低阶模式,也会学到高阶模式。

低阶模式像是“the 后面经常接名词”“中文句号后面可能换行”。高阶模式则是“如果用户问首都,答案应当是地理实体”“如果要求用中文回答,输出语言要切换”“如果前文给出一组约束,后文生成时要保持约束一致”“如果代码报 NullPointerException,应当沿着对象生命周期和空值来源排查”。这些东西仍然可以被描述为模式,但它们已经不是肤浅的 n-gram 统计。

李航等人的一个关键判断是:LLM 学到的是语言使用和推理的模式,重要的是学到了高阶模式。这一点回应了“语言模型只学形式不学内容”的批评。语言的形式和内容并不是完全可分的。自然语言之所以能承载知识,是因为它的结构本身已经编码了大量世界关系。模型从语言形式中学习,最终确实可能得到内容层面的表示。

但“学到内容”也不能被夸大成“拥有人的理解”。模型学到的是可用于预测和生成的特征结构,不是通过身体与世界互动形成的生活经验。它知道“火会烫”是因为无数文本把火、热、烫伤、危险联系在一起;人知道“火会烫”,还因为身体曾经或可能直接承受灼烧。两者都能生成正确句子,但知识的锚定方式不同。

NTP 是表层形式,不是完整解释

把 LLM 说成 Next Token Prediction 容易引发误解。严格说,LLM 的预训练目标确实常常是预测下一个 token;推理时也确实是根据上下文一步步生成下一个 token。但“预测下一个 token”只是目标函数和生成接口,不是能力形成的全部原因。

一个类比是,围棋 AI 的训练目标可以写成“最大化获胜概率”,但这句话并不能解释它为什么会学到布局、定式、厚势、劫争和官子。目标函数是入口,能力来自目标函数、模型结构、优化算法、训练数据和规模效应之间的耦合。

LLM 也是这样。预训练中的极大似然估计可以看成对 token 序列概率分布的估计,也可以看成一种数据压缩。要更好地压缩语言数据,模型必须把可复用的结构压进参数里。词法、语法、实体关系、事实知识、推理模板、文体习惯,都会以某种形式进入模型的内部表示。后训练又进一步改变生成策略,让模型更倾向于输出符合人类偏好、任务指令和安全约束的序列。

所以更准确的说法是:NTP 提供了统一训练界面,Transformer 提供了强表达能力,梯度优化提供了参数搜索机制,海量数据提供了知识与模式来源,后训练提供了行为整形。LLM 的能力来自这几个要素的系统整合。

这也是“只是预测下一个词”这句话的问题所在。它没有错,但解释力太弱。真正的问题不是“是不是预测下一个 token”,而是:为什么预测下一个 token 这个目标,在足够规模上会迫使模型学到可迁移的高阶模式。

[PATTERN] 分析 LLM 能力时,不要把训练目标当成机制解释。训练目标说明模型被要求优化什么,机制解释要说明模型为了优化这个目标学到了什么结构。

Transformer 的作用:特征组合与上下文路由

Transformer 对 LLM 的意义,不只是“能并行训练很长文本”。它更关键的作用是给模型提供了一套适合语言的特征组合机制。

自注意力层负责在上下文中建立 token 之间的依赖关系。它让某个位置的表示能够读取前文中的相关信息:实体、指令、格式、语气、约束、例子、变量名。前馈网络层则更像一组非线性的特征检测器和变换器,用来识别并变换局部表示。多层堆叠之后,浅层偏词法和局部语法,中层偏短程语义和结构关系,深层偏任务意图、抽象概念和输出控制。

这个描述不应理解成严格的“某一层只做某一件事”。真实模型里,特征高度叠加,神经元和概念不是一一对应。一个神经元可能参与多个特征,一个特征也可能由多个神经元共同表示。Anthropic 的 superposition 研究正是从这个问题出发:神经网络可能把远多于神经元数量的稀疏特征压缩进有限维激活空间里。

这解释了为什么 LLM 看起来“会联想”。它不是在数据库里检索一条完整记录,而是在上下文刺激下激活一组相关特征,再由这些特征共同影响后续 token 的分布。问“俄罗斯首都是什么”,会激活俄罗斯、首都、地名、回答语言、问答格式等特征;如果 prompt 里要求“用中文回答”,语言控制特征会参与输出;如果要求“只输出城市名”,格式特征也会被激活。

这种机制足以产生相当复杂的行为,也足以产生幻觉。只要被激活的特征组合在统计上合理但事实上错误,模型就可能输出流畅的假答案。

可解释性研究看到的是“局部电路”,不是完整大脑

2022 年以来,Anthropic 的 Transformer Circuits 系列给 LLM 可解释性提供了几条重要线索。

第一条是 superposition。Toy Models of Superposition 提出,神经网络可以用较低维的神经元空间表示更多稀疏特征,代价是特征之间存在一定干扰。这解释了为什么单个神经元常常是多义的,也解释了为什么直接看神经元不容易得到清晰语义。

第二条是 Sparse Autoencoder。SAE 的作用可以理解成“把压缩在激活空间里的特征尽量解压出来”。Towards Monosemanticity 和 Scaling Monosemanticity 表明,研究者可以从模型激活中提取出大量相对单义的特征,有些特征对应实体、语言、代码模式、安全风险、奉承倾向等抽象概念。这个方向令人兴奋,因为它让“模型内部是否存在可命名概念”从哲学争论变成了可以观察和干预的实验问题。

第三条是 circuit tracing。2025 年的 Circuit Tracing 使用 Cross-Layer Transcoder 和 attribution graph,试图把某个输入下的特征激活路径画成计算图。它不只问“有哪些特征被激活”,还问“这些特征如何跨层影响彼此,最终影响某个输出”。这让可解释性从静态特征词典推进到动态计算路径。

但这些研究的边界同样重要。SAE 找到的特征不是唯一的基本单元,不同字典大小和训练方式可能得到不同粒度的特征;attribution graph 通常是 per-input 的,只能说明某个 prompt 下观察到的计算路径;CLT 本身也是原模型的近似替代。它们提供的是局部、近似、输入依赖的解释,而不是完整的模型算法说明。

这已经很有价值。它说明 LLM 内部并非完全不可分析,也说明“模型只是黑箱统计拟合”这个说法需要被修正。但它还不能支撑“黑箱已经被破解”这种结论。

功能词元:冒号、换行和逗号可能是记忆检索的开关

张少华、林苑、李航的 2025 年论文《Memory Retrieval and Consolidation in Large Language Models through Function Tokens》把视角推进到一个很有意思的层面:高频功能词元可能在 LLM 的记忆检索和记忆巩固中扮演核心角色。

所谓功能词元,是指语料中极高频、承担语法和结构连接功能的 token,例如冠词、介词、标点、换行符、冒号等。论文在 SlimPajama-627B 数据集上按频率定义 function tokens:覆盖语料 token 出现次数 40% 的前 122 个 token 被标记为功能词元。这个定义不是语言学教科书式定义,而是一个操作化定义。

它的关键发现有两层。

第一层在推理阶段。功能词元会根据上下文激活最有预测性的特征,引导后续 token 生成。论文用 Gemma2-9B 和 SAE 特征分解做分析,发现前 10 个高频功能词元能激活相当大比例的特征;在其中一个中层分析里,这个比例达到 71.97%。这意味着功能词元不是“没有内容的填充词”。在模型内部,它们更像上下文边界处的检索触发器。

这和日常 prompt 经验高度吻合。冒号、换行、列表符号、句号之后,模型常常会切换到新的生成状态。一个“Answer in Chinese:”里的冒号,既承接了前面的指令,又把后面的输出空间约束到“中文回答”。功能词元本身不携带“俄罗斯首都是莫斯科”这样的事实内容,但它可能负责把前文中的“用中文回答”“俄罗斯”“首都问答”这些特征重新组织起来。

第二层在预训练阶段。论文认为,预测功能词元之后的内容词元是最困难、也最能驱动学习的任务。功能词之后往往是新 chunk 的开始:短语、从句、句子、段落。要预测它后面的内容词,模型必须理解更长上下文。论文把预测任务拆成 function→function、function→content、content→function、content→content 四类,发现 function→content 的 loss 最高,并且 scaling 带来的改进也显著体现在内容词预测上。

这个假说很好地连接了“语言结构”和“模型能力”。自然语言不是平铺的词袋,而是被标点、介词、连词、换行、格式符号切成层层嵌套的 chunk。功能词元站在 chunk 边界上,迫使模型在边界处总结前文、选择相关特征、预测后续内容。如果这个过程在海量训练中反复发生,功能词元就可能逐渐变成模型内部的记忆检索枢纽。

[PATTERN] prompt 工程里的格式符号不是表面排版。冒号、换行、项目符号、分隔符会改变模型在边界处的特征重组方式。好的 prompt 格式,本质上是在给模型提供稳定的功能词元路由。

为什么语言和思考需要分开看

把语言和思考区分开,并不是为了说它们互不相关。恰恰相反,LLM 的特殊之处在于,它把大量思考行为都压进了语言建模过程里。问题在于,二者承担的功能不同。

语言能力回答的是“这句话在当前上下文里应该怎样被理解和表达”。它关心词义、句法、语体、语气、格式、指代、段落结构和交互意图。一个模型如果语言能力强,就能把“请用中文解释一下这个报错”理解成一种说明性任务,也能把“只给结论”理解成输出约束。

思考能力回答的是“为了得到正确答案,中间状态应该怎样组织”。它关心目标是否被保持,变量是否被绑定,条件是否被遗漏,因果链是否成立,步骤是否可逆,结论是否和前提一致。一个模型如果思考能力强,就能在解数学题、分析代码、排查故障、制定计划时维持多个约束,而不是只生成一段听起来合理的话。

这两个能力经常同时出现,所以容易被混淆。一个模型可以语言很强但思考较弱,表现为答案流畅、结构完整、语气自信,但关键推理断裂。一个模型也可能有一定内部推理能力,但语言表达受限,表现为知道一些中间关系,却无法稳定地把它们组织成清楚解释。对 LLM 来说,最常见的问题是前一种:语言生成系统太强,会把尚未完成的思考包装成已经完成的答案。

[PATTERN] 判断 LLM 是否“会思考”,不能只看表达是否流畅。语言能力看输出是否合乎语境,思考能力看中间约束是否被持续维护。

思维链不是思考本身,而是思考的语言化外壳

Chain of Thought 让这个问题更复杂。模型写出一步一步的推导时,读者很容易把这些文字当成内部思考过程的真实记录。但更谨慎的看法是:思维链是模型把某种问题求解轨迹语言化之后的产物。它可能反映了内部计算,也可能只是生成了一个看起来合理的解释。

这并不意味着思维链没有价值。把中间步骤写出来,确实能给模型提供额外的工作空间。对于多步数学题、程序推理、复杂决策题,显式中间状态可以降低一次性跳到答案的难度。语言在这里变成了一种外部化的草稿纸:前一步生成的文字成为后一步可读取的上下文,从而帮助模型维持更长的推理链。

但思维链的危险也在这里。语言化的推理可以帮助思考,也可以伪装思考。模型可能先形成答案,再补一段看似合理的理由;也可能在中间某一步犯错,却因为语言连贯而掩盖错误。对于这类输出,真正要检查的不是“有没有步骤”,而是每一步是否由前一步推出,变量是否一致,约束是否仍然保留。

因此,语言和思考的关系更像“接口”和“计算”的关系。语言提供输入输出接口,也提供一部分工作记忆;思考则是接口背后对状态、约束和路径的组织。接口越强,系统越像人在交流;计算越稳,系统才越像在解决问题。

功能词元连接的是语言边界和思考边界

Function Token Hypothesis 的有趣之处,正好在于它把语言和思考之间的接口位置暴露出来。冒号、换行、逗号、句号、列表符号这些 token 看起来属于语言表层,但它们经常出现在思考状态切换的位置。

一个冒号可能意味着“前面是任务说明,后面进入答案区”。一个换行可能意味着“上一段结束,下一段展开新子问题”。一个列表符号可能意味着“接下来要维持并列结构”。这些符号本身不携带事实知识,却会改变模型接下来读取哪些上下文、激活哪些特征、保持哪种输出格式。

这说明语言结构并不只是包装。对于 LLM,语言边界常常也是计算边界。段落、标点、格式和模板会改变模型组织中间状态的方式。好的 prompt 格式之所以有效,不只是因为它“更清楚”,还因为它在模型容易切换状态的位置放置了稳定的路由信号。

这也解释了为什么同一个问题,换一种格式可能得到不同质量的答案。把约束塞进一长段自然语言里,模型可能漏掉其中一项;把约束拆成列表,模型更容易逐项维持。这里提升的不是单纯的文采,而是模型在生成过程中维护任务状态的能力。

LLM 的思考不是人的思考

把语言和思考分开看,还有一个重要作用:避免把 LLM 的推理能力直接等同于人的心智。

人的思考不只发生在语言里。人可以借助视觉表象、身体感觉、空间直觉、情绪信号和行动反馈来思考。很多判断并不先变成句子,而是先以图像、动作倾向、经验记忆或情境感出现。语言可以整理这些东西,却不是这些东西的全部来源。

LLM 的“思考”则主要发生在语言数据训练出的特征空间里。它没有身体反馈,没有真实行动的代价,没有持续的个人经验,也没有对外部事实的直接接触。它能模拟很多人类推理形式,是因为文本中沉淀了大量推理痕迹:证明、解释、争论、计划、代码、教程、问答、论文、日志。模型学到的是这些痕迹背后的可复用结构。

这使得 LLM 的思考既强又脆。强在于它可以跨领域调度大量文本中出现过的模式;脆在于它缺乏事实锚定和经验校验。只要上下文诱导出错误特征组合,模型就可能生成逻辑完整但事实错误的答案。它不是没有思考能力,而是它的思考缺少人类那种由身体、环境和长期实践提供的纠错闭环。

可解释性研究真正改变的问题

可解释性研究的价值,不在于宣布“模型已经有心智”,也不在于证明“模型只是统计拟合”。它真正改变的问题是:能否在模型内部看到语言能力和思考能力的某些分工。

SAE 提取出的 monosemantic feature,说明模型内部确实存在相对可命名的特征。某些特征更接近实体、主题、语气和格式控制,偏语言组织;某些特征更接近因果关系、风险模式、代码结构、任务意图和抽象概念,偏思考组织。Attribution graph 进一步试图解释这些特征如何在一次具体输入中相互影响,最终推动某个输出 token。

但这些观察仍然是局部的。它们不等于完整的“模型思想地图”。一个特征可能参与多个行为,一个行为也可能由很多特征共同完成。语言和思考在模型内部不太可能对应两块干净分区,更可能是许多特征、电路和层间路径的动态耦合。

可解释性研究因此给出的不是终局答案,而是一种更好的问题问法:不要问“模型到底会不会思考”这种二元问题,而要问“在这个任务中,哪些特征负责理解语言,哪些特征负责维护约束,哪些路径把中间状态推向答案,哪些地方容易发生干扰”。这个问法更接近科学问题,也更接近工程问题。

对使用者的实际启发

把语言能力和思考能力分开,对日常使用 LLM 很有直接价值。

如果任务主要考语言能力,例如改写、摘要、翻译、润色、格式转换,重点是给出清晰语境、目标读者、风格边界和输出格式。模型擅长把这些约束转成自然表达。

如果任务主要考思考能力,例如复杂代码修改、数学推导、事故排查、架构决策、长链路计划,重点就不能只放在“怎么说”。输入必须把目标、约束、已知事实、不可违反的条件和验证方式拆开。输出也不能只看语言是否顺畅,而要检查中间步骤、边界条件和证据。

更稳妥的交互方式,是让模型把语言接口和思考过程分层:先复述问题约束,再列出关键变量,再给出推理路径,最后输出结论。对于高风险任务,还要让另一个视角复核,或用测试、检索、运行结果来校验。语言可以帮助组织思考,但不能替代验证。

[PATTERN] 写 prompt 时,语言任务给风格和格式,思考任务给变量、约束和验收标准。前者追求表达质量,后者追求状态维护和可验证性。

结论:像人说话,不等于像人思考

LLM 为什么像人在说话和思考?更准确的答案是:它在语言建模中学到了两组高度耦合的能力。

第一组是语言能力。它让模型能理解上下文、选择语体、组织结构、生成自然表达,并在对话中表现出很强的交互适应性。

第二组是思考能力。它让模型能在生成过程中调度知识、维持目标、处理约束、展开步骤、形成中间结论,并在一部分任务上表现出可迁移的推理能力。

这两组能力都来自大规模语言数据、Transformer 结构、梯度优化、规模效应和后训练的共同作用。NTP 是训练入口,不是完整机制解释。功能词元、SAE 特征、superposition 和 circuit tracing 提供了一些局部证据,说明模型内部确实存在可观察的特征组织和计算路径。

但 LLM 的语言和思考仍然不是人的语言和思考。它没有身体经验,没有意识主体,没有持续生活史,也没有对事实世界的直接锚定。它像人在说话,是因为语言结构中压缩了人类表达世界的方式;它像人在思考,是因为语言数据中也压缩了人类解决问题的痕迹。两者都是真的,但都只能在机制边界内成立。

模式速查表

问题 更准确的判断
LLM 只是预测下一个 token 吗 NTP 是训练目标和生成接口,不是能力机制的完整解释
语言能力是什么 理解语境、组织表达、选择语体、维持格式和交互意图
思考能力是什么 维持目标、绑定变量、保留约束、调度知识、形成中间路径
为什么二者容易混淆 LLM 把大量思考行为语言化,输出层只呈现文字
思维链是不是思考本身 不是。它是思考轨迹的语言化外壳,可能有帮助,也可能伪装推理
功能词元为什么重要 标点、换行、冒号、列表符号常常同时标记语言边界和计算边界
可解释性研究证明了什么 模型内部存在可观察的特征和局部电路,但还不是完整机制说明
LLM 和人的根本差异 LLM 缺少身体、经验、意识和事实锚定,推理依赖符号与特征空间