2026 年讨论 self-improving agent 时，最容易混在一起的有三件事：模型权重会不会自己变强，agent 会不会从运行经验里积累结构，harness 会不会自动改造自己。

这三件事都可以被叫作"自我改进"，但边界完全不同。第一种发生在 L1，也就是模型权重和训练管线里；第二种发生在 L3/L4，也就是外部记忆、skill、session search、user model 和可检索的外部世界里；第三种发生在 harness 本身，也就是工具、middleware、调度、回滚和验证结构里。

如果不先把层级分开，“Hermes 是不是 self-improving agent”、“OpenClaw 是不是第一个自进化 agent”、"外部记忆能不能替代动态权重"这几个问题都会变成口号战。

Self-Improving Agent 通过外部记忆层改变行为而非权重

一、权重没有变，行为会变

一个冻结权重的模型不会因为昨天完成了一次任务，今天的参数就多出一个新神经回路。对主流商用 API 和开源推理栈来说，部署后的模型权重大体是静态的。所谓 self-improving agent，绝大多数不是在改模型，而是在改模型每次被调用时看到的工作环境。

这个工作环境至少包括五层东西：

记忆：MEMORY.md、USER.md、日记、session database、向量索引。
技能：SKILL.md、工具说明、procedural memory、脚本和引用材料。
用户模型：偏好、沟通风格、长期目标、禁忌和常用工作流。
harness：工具编排、沙箱、回滚、评测、日志、观察面。
外部世界：代码仓、数据库、网页、issue tracker、消息平台、文件系统。

这些东西可以在行为层覆盖模型的默认倾向。模型内部也许"相信"一个旧 API 的用法，但当前项目的 AGENTS.md、官方文档检索结果和失败测试可以把它拉回正确路径。这里发生的不是权重改写，而是运行时工作集改写。更准确的说法是：外部状态在当前任务上 shadow 了模型权重。

shadow 不是替代。权重仍然提供语言能力、常识、推理模板和泛化能力；外部记忆提供当前环境里的优先事实、约束和程序。两者叠加后，agent 表现出来的行为会像"学过了"。但只要把这些外部文件、索引和工具拿走，底层模型并不会保留这份新能力。

二、Self-improve 是一条谱系

把 self-improve 拆成谱系后，很多争论会自然消失。

层级	改进对象	典型机制	是否改权重	风险
记住事实	个人偏好、项目事实	`MEMORY.md`、session search	否	记忆过期、召回错误
整理记忆	短期信号到长期记忆	Dreaming、daily notes、promotion	否	压缩错、过度概括
沉淀技能	可复用工作流	skill 自动生成、skill 改进	否	skill 污染、旧流程固化
进化 harness	工具、middleware、验证回路	AHE、MOSS、回放评测、回滚	否	结构性 bug、评测过拟合
自动做 AI R&D	让 AI 帮助研发下一代系统	代码、数据、训练、评测流水线	可能	进度失控、治理困难
在线改权重	模型运行中写入参数记忆	Titans、MemoryLLM 等研究线	是或近似是	安全、遗忘、可审计性

Hermes 主要落在"记住事实 + 整理记忆 + 沉淀技能"这一段。OpenClaw 当前主要落在"记住事实 + 整理记忆 + 技能注册"这一段。AHE 和 MOSS 则把重点推到 harness：AHE 让可编辑 harness 组件在评测信号下进化；MOSS 进一步把 OpenClaw 这类 agent substrate 当作可重写源码来进化。

这条谱系上越往下，"自我改进"越像真正的软件演化，风险也越接近传统生产系统的风险：回归、过拟合、错误晋升、权限越界、回滚失败。越往上，则更像上下文工程和个人知识库工程。

三、Hermes 学到的东西在哪里

Hermes 官方把自己称为有内置 learning loop 的 agent。这个判断在 agent 层是成立的：它有持久记忆、自动 skill creation、skill 使用中的改进、跨 session 搜索和用户建模。官方文档也明确写到，Hermes 会把 MEMORY.md 与 USER.md 注入系统提示，skill 是按需加载的知识文档，并且 agent-created skills 会进入 ~/.hermes/skills/。

这套机制的关键不是"模型会学习"，而是"运行时会写出下一次运行时会读到的东西"。一次任务结束后，Hermes 可以把经验写进 skill；下一次相似任务触发 skill；skill 又改变下一次模型调用时的上下文。循环成立后，agent 的行为会在时间上积累。

可以把 Hermes 的学习路径画成这样：

flowchart LR
  A["运行轨迹"] --> B["压缩与筛选"]
  B --> C["L3 外部资产<br/>memory / skill / user model"]
  C --> D["检索与注入"]
  D --> E["L2 当前工作集"]
  E --> F["固定权重模型"]
  F --> G["工具行动与验证"]
  G --> A
  H["L1 静态权重"] --> F

这张图里，能被 Hermes 改写的是 C，不是 H。模型权重没有变，但 C 每次被注入后都会改变 F 的输入条件。行为上的持续变强来自这个 C 层的复利。

所以 Hermes 是 self-improving agent，但必须加限定词：它是 agent-layer self-improving，不是 weight-level self-improving。它把运行时信息内化成自己的外部结构，而不是内化成模型参数。

四、OpenClaw 的意义被误放大了

OpenClaw 不能再被简单写成"没有记忆"。截至 2026-05-23，OpenClaw 官方文档已经描述了三类记忆文件：MEMORY.md 存长期事实、偏好和决策，memory/YYYY-MM-DD.md 存 daily notes，DREAMS.md 存 Dreaming sweep 摘要。它还有 memory_search、memory_get、SQLite/hybrid search 后端，以及 compaction 前的 automatic memory flush。Dreaming 则是可选的后台整合过程，会从短期信号里筛出候选，把合格内容晋升进 MEMORY.md。

这已经越过了"静态配置文件"阶段。OpenClaw 不是只有 SOUL.md、AGENTS.md、TOOLS.md 和 ClawHub。它开始有一条从会话到日记、从日记到长期记忆、从长期记忆到检索注入的路径。

但这还不是最强意义上的 self-evolving agent。原因有三点。

第一，OpenClaw 的 Dreaming 主要进化的是记忆内容，不是 agent 源码或 harness 结构。它可以让 agent 更会记住项目事实、用户偏好和历史决策，但不等于它会自动修复自己的路由、工具调度、权限模型和回滚策略。

第二，OpenClaw 的 skill 生态仍以用户安装、社区分发和 AgentSkills 规范兼容为主。某些第三方 skill 会实现"self-improving"效果，但那是 skill 层能力，不应直接等同于 OpenClaw core 已经拥有 Hermes 式内置 skill 蒸馏回路。

第三，真正接近"源代码级自进化"的工作，反而是 2026-05-21 提交的 MOSS：它把 OpenClaw 当成生产 agent substrate，用故障证据驱动源码重写、试运行验证、用户同意后容器切换和健康检查回滚。这里 OpenClaw 是被进化的底座，不必然是进化机制本身。

因此，OpenClaw 的意义很大，但要放在正确位置。它最深远的部分不是"第一个自进化 agent"，而是把个人 agent 的入口、网关、工作空间、记忆文件和技能生态做成了一个可被大规模使用的 substrate。Hermes 展示的是 agent 如何通过外部记忆和 skill 形成行为复利；OpenClaw 展示的是这种 agent substrate 如何进入日常入口；AHE/MOSS 展示的是 substrate 和 harness 本身如何被可观测地改造。

五、外部记忆如何 shadow 权重

外部信息要能 shadow 权重，不能只是堆在磁盘上。它必须进入一条完整的 page-in / page-out 路径。

第一，信息要可发现。文件名、frontmatter、索引、向量、关键词、时间戳和 provenance 都是 selector。没有 selector，外部存储只是冷数据，不是记忆。

第二，信息要能被精确换入当前上下文。大段资料全量塞进 L2 会增加 token 价格，也会降低容错率。更好的做法是让 L2 只装地图、约束和当前工作集，把材料留在 L3/L4，按需检索、裁剪和注入。

第三，信息要有优先级。旧记忆、当前 spec、测试结果、官方文档、用户刚刚确认的事实，不应该拥有同等权重。没有优先级的记忆系统会把 agent 拉回概率平均态。

第四，信息要能失效。外部记忆 shadow 权重的同时也会 shadow 新事实。过期的部署流程、失效的 API、曾经正确的偏好，都可能变成后续任务的幻觉源。记忆系统必须有压缩、替换、删除、审计和回滚。

第五，信息要经过验证。对编码 agent 来说，最可靠的 shadow 不是"一段写得很好的文字"，而是文字背后的测试、类型检查、构建、回放和评测信号。Spec 给上下界，测试给不可争辩的边界。没有验证的记忆只是更持久的提示词。

这就是为什么 compact 的目标不是保留全部历史，而是丢弃已经完成的任务，把未完成目标、关键约束和下一步动作留在下一次 refill 里。不断把全量历史塞回上下文，会同时抬高价格和降低系统容错率。真正的无限工作边界来自外部存储、检索、压缩、遗忘和验证的组合，而不是把上下文窗口越撑越大。

六、为什么大公司会谨慎

"硅谷在压住 self-improve agent"这种说法，目前很难作为事实写进文章。公开资料能支持的判断更克制：前沿实验室已经把 AI-driven AI R&D 和 recursive self-improvement 当成重要议题，但公开产品化会被安全、治理、竞争优势和滥用风险共同约束。

Anthropic Institute 在 2026-05-07 发布的研究议程里，把 AI-driven R&D 单列为四个方向之一，并明确提到更强系统可能被用于开发后继版本。它关心的不是普通记忆文件，而是 AI 研发速度是否开始出现复合回报、如何观测 AI R&D telemetry、如果 intelligence explosion 临近，哪些干预点能减速或改变方向。

这说明一个现象：真正敏感的不是"agent 记住你喜欢 TypeScript"，而是"agent 能在少人监督下稳定改进 AI 系统自身"。前者是产品体验，后者是能力增长机制。二者都叫 self-improvement，但治理等级完全不同。

公开系统大多会先把自我改进限制在可审计外部资产里：memory、skill、workflow、harness component、container image。这样做不是因为权重级学习不诱人，而是因为外部资产至少可以 diff、review、rollback、disable。权重级在线学习一旦成为用户态能力，审计和回滚都会困难得多。

七、这组文章应该怎样放

这个主题不适合塞回单篇 Hermes 横评里。更好的组织方式是四篇文章互相咬合：

《谁在记住你：Hermes、OpenClaw、Claude Code 等主流智能体的记忆架构深度横评》：回答产品和架构横评，重点是 Hermes 与 OpenClaw 的路线分歧。
《智能体记忆全景综述：从短时长时之分到向量库回归文件系统》：回答四层记忆和 L1/L2/L3/L4 的边界。
《Harness 也开始进化：复旦 AHE 与可观测性驱动的自演化》：回答 harness 本身如何在评测信号下进化。
本文：回答外部记忆能否 shadow 权重，以及 self-improving agent 的层级边界。

四篇文章的关系很清楚：四层记忆解释"信息放在哪里"，Hermes/OpenClaw 解释"产品怎么用它"，AHE/MOSS 解释"harness 怎么进化"，本文解释"为什么这些都还不是权重进化，但已经足以让 agent 在行为上持续变强"。

八、结论

外部记忆不能神秘地替代模型权重，但可以在具体任务上 shadow 模型权重。它通过检索、注入、验证和回滚，把当前环境里更高优先级的信息压到模型默认分布之上。

这也是 self-improving agent 最现实的边界。短期内，真正可落地的自我改进不会主要发生在权重里，而会发生在可审计的外部结构里：memory、skill、spec、test、workflow、harness、source patch、container image。智能的增长不只来自模型内部处理信息的能力，也来自系统获取正确信息、选择正确信息、丢弃错误信息、验证行动结果的能力。

下一代 scaling 不只是更大的模型和更长的窗口，而是更好的外部状态管理。模型像 CPU，当前上下文像工作集，外部记忆像多级存储，harness 像操作系统。真正重要的问题不是"能不能把所有东西都塞进上下文"，而是"什么东西应该在什么时候被换入，什么东西应该被丢弃，什么东西必须被测试证明"。

这个答案也解释了为什么 harness 可能是永存的。只要智能系统要在一个外部世界里行动，环境里的正确信息、工具边界、验证信号和组织约束就不可能完全由模型内部替代。模型会越来越强，但环境永远在变。harness 的工作，就是把正在变化的世界压成模型此刻能可靠使用的上下文。

参考资料

Hermes Agent Documentation

Hermes Agent Persistent Memory

Hermes Agent Skills System

OpenClaw Memory Overview

OpenClaw Dreaming

OpenClaw Skills

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses

MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Focus areas for The Anthropic Institute