Self-Improving Agent 的边界:外部记忆能不能 shadow 模型权重?
2026 年讨论 self-improving agent 时,最容易混在一起的有三件事:模型权重会不会自己变强,agent 会不会从运行经验里积累结构,harness 会不会自动改造自己。
这三件事都可以被叫作"自我改进",但边界完全不同。第一种发生在 L1,也就是模型权重和训练管线里;第二种发生在 L3/L4,也就是外部记忆、skill、session search、user model 和可检索的外部世界里;第三种发生在 harness 本身,也就是工具、middleware、调度、回滚和验证结构里。
如果不先把层级分开,“Hermes 是不是 self-improving agent”、“OpenClaw 是不是第一个自进化 agent”、"外部记忆能不能替代动态权重"这几个问题都会变成口号战。
一、权重没有变,行为会变
一个冻结权重的模型不会因为昨天完成了一次任务,今天的参数就多出一个新神经回路。对主流商用 API 和开源推理栈来说,部署后的模型权重大体是静态的。所谓 self-improving agent,绝大多数不是在改模型,而是在改模型每次被调用时看到的工作环境。
这个工作环境至少包括五层东西:
- 记忆:
MEMORY.md、USER.md、日记、session database、向量索引。 - 技能:
SKILL.md、工具说明、procedural memory、脚本和引用材料。 - 用户模型:偏好、沟通风格、长期目标、禁忌和常用工作流。
- harness:工具编排、沙箱、回滚、评测、日志、观察面。
- 外部世界:代码仓、数据库、网页、issue tracker、消息平台、文件系统。
这些东西可以在行为层覆盖模型的默认倾向。模型内部也许"相信"一个旧 API 的用法,但当前项目的 AGENTS.md、官方文档检索结果和失败测试可以把它拉回正确路径。这里发生的不是权重改写,而是运行时工作集改写。更准确的说法是:外部状态在当前任务上 shadow 了模型权重。
shadow 不是替代。权重仍然提供语言能力、常识、推理模板和泛化能力;外部记忆提供当前环境里的优先事实、约束和程序。两者叠加后,agent 表现出来的行为会像"学过了"。但只要把这些外部文件、索引和工具拿走,底层模型并不会保留这份新能力。
二、Self-improve 是一条谱系
把 self-improve 拆成谱系后,很多争论会自然消失。
| 层级 | 改进对象 | 典型机制 | 是否改权重 | 风险 |
|---|---|---|---|---|
| 记住事实 | 个人偏好、项目事实 | MEMORY.md、session search |
否 | 记忆过期、召回错误 |
| 整理记忆 | 短期信号到长期记忆 | Dreaming、daily notes、promotion | 否 | 压缩错、过度概括 |
| 沉淀技能 | 可复用工作流 | skill 自动生成、skill 改进 | 否 | skill 污染、旧流程固化 |
| 进化 harness | 工具、middleware、验证回路 | AHE、MOSS、回放评测、回滚 | 否 | 结构性 bug、评测过拟合 |
| 自动做 AI R&D | 让 AI 帮助研发下一代系统 | 代码、数据、训练、评测流水线 | 可能 | 进度失控、治理困难 |
| 在线改权重 | 模型运行中写入参数记忆 | Titans、MemoryLLM 等研究线 | 是或近似是 | 安全、遗忘、可审计性 |
Hermes 主要落在"记住事实 + 整理记忆 + 沉淀技能"这一段。OpenClaw 当前主要落在"记住事实 + 整理记忆 + 技能注册"这一段。AHE 和 MOSS 则把重点推到 harness:AHE 让可编辑 harness 组件在评测信号下进化;MOSS 进一步把 OpenClaw 这类 agent substrate 当作可重写源码来进化。
这条谱系上越往下,"自我改进"越像真正的软件演化,风险也越接近传统生产系统的风险:回归、过拟合、错误晋升、权限越界、回滚失败。越往上,则更像上下文工程和个人知识库工程。
三、Hermes 学到的东西在哪里
Hermes 官方把自己称为有内置 learning loop 的 agent。这个判断在 agent 层是成立的:它有持久记忆、自动 skill creation、skill 使用中的改进、跨 session 搜索和用户建模。官方文档也明确写到,Hermes 会把 MEMORY.md 与 USER.md 注入系统提示,skill 是按需加载的知识文档,并且 agent-created skills 会进入 ~/.hermes/skills/。
这套机制的关键不是"模型会学习",而是"运行时会写出下一次运行时会读到的东西"。一次任务结束后,Hermes 可以把经验写进 skill;下一次相似任务触发 skill;skill 又改变下一次模型调用时的上下文。循环成立后,agent 的行为会在时间上积累。
可以把 Hermes 的学习路径画成这样:
flowchart LR
A["运行轨迹"] --> B["压缩与筛选"]
B --> C["L3 外部资产<br/>memory / skill / user model"]
C --> D["检索与注入"]
D --> E["L2 当前工作集"]
E --> F["固定权重模型"]
F --> G["工具行动与验证"]
G --> A
H["L1 静态权重"] --> F
这张图里,能被 Hermes 改写的是 C,不是 H。模型权重没有变,但 C 每次被注入后都会改变 F 的输入条件。行为上的持续变强来自这个 C 层的复利。
所以 Hermes 是 self-improving agent,但必须加限定词:它是 agent-layer self-improving,不是 weight-level self-improving。它把运行时信息内化成自己的外部结构,而不是内化成模型参数。
四、OpenClaw 的意义被误放大了
OpenClaw 不能再被简单写成"没有记忆"。截至 2026-05-23,OpenClaw 官方文档已经描述了三类记忆文件:MEMORY.md 存长期事实、偏好和决策,memory/YYYY-MM-DD.md 存 daily notes,DREAMS.md 存 Dreaming sweep 摘要。它还有 memory_search、memory_get、SQLite/hybrid search 后端,以及 compaction 前的 automatic memory flush。Dreaming 则是可选的后台整合过程,会从短期信号里筛出候选,把合格内容晋升进 MEMORY.md。
这已经越过了"静态配置文件"阶段。OpenClaw 不是只有 SOUL.md、AGENTS.md、TOOLS.md 和 ClawHub。它开始有一条从会话到日记、从日记到长期记忆、从长期记忆到检索注入的路径。
但这还不是最强意义上的 self-evolving agent。原因有三点。
第一,OpenClaw 的 Dreaming 主要进化的是记忆内容,不是 agent 源码或 harness 结构。它可以让 agent 更会记住项目事实、用户偏好和历史决策,但不等于它会自动修复自己的路由、工具调度、权限模型和回滚策略。
第二,OpenClaw 的 skill 生态仍以用户安装、社区分发和 AgentSkills 规范兼容为主。某些第三方 skill 会实现"self-improving"效果,但那是 skill 层能力,不应直接等同于 OpenClaw core 已经拥有 Hermes 式内置 skill 蒸馏回路。
第三,真正接近"源代码级自进化"的工作,反而是 2026-05-21 提交的 MOSS:它把 OpenClaw 当成生产 agent substrate,用故障证据驱动源码重写、试运行验证、用户同意后容器切换和健康检查回滚。这里 OpenClaw 是被进化的底座,不必然是进化机制本身。
因此,OpenClaw 的意义很大,但要放在正确位置。它最深远的部分不是"第一个自进化 agent",而是把个人 agent 的入口、网关、工作空间、记忆文件和技能生态做成了一个可被大规模使用的 substrate。Hermes 展示的是 agent 如何通过外部记忆和 skill 形成行为复利;OpenClaw 展示的是这种 agent substrate 如何进入日常入口;AHE/MOSS 展示的是 substrate 和 harness 本身如何被可观测地改造。
五、外部记忆如何 shadow 权重
外部信息要能 shadow 权重,不能只是堆在磁盘上。它必须进入一条完整的 page-in / page-out 路径。
第一,信息要可发现。文件名、frontmatter、索引、向量、关键词、时间戳和 provenance 都是 selector。没有 selector,外部存储只是冷数据,不是记忆。
第二,信息要能被精确换入当前上下文。大段资料全量塞进 L2 会增加 token 价格,也会降低容错率。更好的做法是让 L2 只装地图、约束和当前工作集,把材料留在 L3/L4,按需检索、裁剪和注入。
第三,信息要有优先级。旧记忆、当前 spec、测试结果、官方文档、用户刚刚确认的事实,不应该拥有同等权重。没有优先级的记忆系统会把 agent 拉回概率平均态。
第四,信息要能失效。外部记忆 shadow 权重的同时也会 shadow 新事实。过期的部署流程、失效的 API、曾经正确的偏好,都可能变成后续任务的幻觉源。记忆系统必须有压缩、替换、删除、审计和回滚。
第五,信息要经过验证。对编码 agent 来说,最可靠的 shadow 不是"一段写得很好的文字",而是文字背后的测试、类型检查、构建、回放和评测信号。Spec 给上下界,测试给不可争辩的边界。没有验证的记忆只是更持久的提示词。
这就是为什么 compact 的目标不是保留全部历史,而是丢弃已经完成的任务,把未完成目标、关键约束和下一步动作留在下一次 refill 里。不断把全量历史塞回上下文,会同时抬高价格和降低系统容错率。真正的无限工作边界来自外部存储、检索、压缩、遗忘和验证的组合,而不是把上下文窗口越撑越大。
六、为什么大公司会谨慎
"硅谷在压住 self-improve agent"这种说法,目前很难作为事实写进文章。公开资料能支持的判断更克制:前沿实验室已经把 AI-driven AI R&D 和 recursive self-improvement 当成重要议题,但公开产品化会被安全、治理、竞争优势和滥用风险共同约束。
Anthropic Institute 在 2026-05-07 发布的研究议程里,把 AI-driven R&D 单列为四个方向之一,并明确提到更强系统可能被用于开发后继版本。它关心的不是普通记忆文件,而是 AI 研发速度是否开始出现复合回报、如何观测 AI R&D telemetry、如果 intelligence explosion 临近,哪些干预点能减速或改变方向。
这说明一个现象:真正敏感的不是"agent 记住你喜欢 TypeScript",而是"agent 能在少人监督下稳定改进 AI 系统自身"。前者是产品体验,后者是能力增长机制。二者都叫 self-improvement,但治理等级完全不同。
公开系统大多会先把自我改进限制在可审计外部资产里:memory、skill、workflow、harness component、container image。这样做不是因为权重级学习不诱人,而是因为外部资产至少可以 diff、review、rollback、disable。权重级在线学习一旦成为用户态能力,审计和回滚都会困难得多。
七、这组文章应该怎样放
这个主题不适合塞回单篇 Hermes 横评里。更好的组织方式是四篇文章互相咬合:
- 《谁在记住你:Hermes、OpenClaw、Claude Code 等主流智能体的记忆架构深度横评》:回答产品和架构横评,重点是 Hermes 与 OpenClaw 的路线分歧。
- 《智能体记忆全景综述:从短时长时之分到向量库回归文件系统》:回答四层记忆和 L1/L2/L3/L4 的边界。
- 《Harness 也开始进化:复旦 AHE 与可观测性驱动的自演化》:回答 harness 本身如何在评测信号下进化。
- 本文:回答外部记忆能否 shadow 权重,以及 self-improving agent 的层级边界。
四篇文章的关系很清楚:四层记忆解释"信息放在哪里",Hermes/OpenClaw 解释"产品怎么用它",AHE/MOSS 解释"harness 怎么进化",本文解释"为什么这些都还不是权重进化,但已经足以让 agent 在行为上持续变强"。
八、结论
外部记忆不能神秘地替代模型权重,但可以在具体任务上 shadow 模型权重。它通过检索、注入、验证和回滚,把当前环境里更高优先级的信息压到模型默认分布之上。
这也是 self-improving agent 最现实的边界。短期内,真正可落地的自我改进不会主要发生在权重里,而会发生在可审计的外部结构里:memory、skill、spec、test、workflow、harness、source patch、container image。智能的增长不只来自模型内部处理信息的能力,也来自系统获取正确信息、选择正确信息、丢弃错误信息、验证行动结果的能力。
下一代 scaling 不只是更大的模型和更长的窗口,而是更好的外部状态管理。模型像 CPU,当前上下文像工作集,外部记忆像多级存储,harness 像操作系统。真正重要的问题不是"能不能把所有东西都塞进上下文",而是"什么东西应该在什么时候被换入,什么东西应该被丢弃,什么东西必须被测试证明"。
这个答案也解释了为什么 harness 可能是永存的。只要智能系统要在一个外部世界里行动,环境里的正确信息、工具边界、验证信号和组织约束就不可能完全由模型内部替代。模型会越来越强,但环境永远在变。harness 的工作,就是把正在变化的世界压成模型此刻能可靠使用的上下文。
参考资料
- Hermes Agent Documentation
- Hermes Agent Persistent Memory
- Hermes Agent Skills System
- OpenClaw Memory Overview
- OpenClaw Dreaming
- OpenClaw Skills
- Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
- MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
- Focus areas for The Anthropic Institute
