2026 年讨论 self-improving agent 时,最容易混在一起的有三件事:模型权重会不会自己变强,agent 会不会从运行经验里积累结构,harness 会不会自动改造自己。

这三件事都可以被叫作"自我改进",但边界完全不同。第一种发生在 L1,也就是模型权重和训练管线里;第二种发生在 L3/L4,也就是外部记忆、skill、session search、user model 和可检索的外部世界里;第三种发生在 harness 本身,也就是工具、middleware、调度、回滚和验证结构里。

如果不先把层级分开,“Hermes 是不是 self-improving agent”、“OpenClaw 是不是第一个自进化 agent”、"外部记忆能不能替代动态权重"这几个问题都会变成口号战。

一、权重没有变,行为会变

一个冻结权重的模型不会因为昨天完成了一次任务,今天的参数就多出一个新神经回路。对主流商用 API 和开源推理栈来说,部署后的模型权重大体是静态的。所谓 self-improving agent,绝大多数不是在改模型,而是在改模型每次被调用时看到的工作环境。

这个工作环境至少包括五层东西:

  • 记忆:MEMORY.mdUSER.md、日记、session database、向量索引。
  • 技能:SKILL.md、工具说明、procedural memory、脚本和引用材料。
  • 用户模型:偏好、沟通风格、长期目标、禁忌和常用工作流。
  • harness:工具编排、沙箱、回滚、评测、日志、观察面。
  • 外部世界:代码仓、数据库、网页、issue tracker、消息平台、文件系统。

这些东西可以在行为层覆盖模型的默认倾向。模型内部也许"相信"一个旧 API 的用法,但当前项目的 AGENTS.md、官方文档检索结果和失败测试可以把它拉回正确路径。这里发生的不是权重改写,而是运行时工作集改写。更准确的说法是:外部状态在当前任务上 shadow 了模型权重。

shadow 不是替代。权重仍然提供语言能力、常识、推理模板和泛化能力;外部记忆提供当前环境里的优先事实、约束和程序。两者叠加后,agent 表现出来的行为会像"学过了"。但只要把这些外部文件、索引和工具拿走,底层模型并不会保留这份新能力。

二、Self-improve 是一条谱系

把 self-improve 拆成谱系后,很多争论会自然消失。

层级 改进对象 典型机制 是否改权重 风险
记住事实 个人偏好、项目事实 MEMORY.md、session search 记忆过期、召回错误
整理记忆 短期信号到长期记忆 Dreaming、daily notes、promotion 压缩错、过度概括
沉淀技能 可复用工作流 skill 自动生成、skill 改进 skill 污染、旧流程固化
进化 harness 工具、middleware、验证回路 AHE、MOSS、回放评测、回滚 结构性 bug、评测过拟合
自动做 AI R&D 让 AI 帮助研发下一代系统 代码、数据、训练、评测流水线 可能 进度失控、治理困难
在线改权重 模型运行中写入参数记忆 Titans、MemoryLLM 等研究线 是或近似是 安全、遗忘、可审计性

Hermes 主要落在"记住事实 + 整理记忆 + 沉淀技能"这一段。OpenClaw 当前主要落在"记住事实 + 整理记忆 + 技能注册"这一段。AHE 和 MOSS 则把重点推到 harness:AHE 让可编辑 harness 组件在评测信号下进化;MOSS 进一步把 OpenClaw 这类 agent substrate 当作可重写源码来进化。

这条谱系上越往下,"自我改进"越像真正的软件演化,风险也越接近传统生产系统的风险:回归、过拟合、错误晋升、权限越界、回滚失败。越往上,则更像上下文工程和个人知识库工程。

三、Hermes 学到的东西在哪里

Hermes 官方把自己称为有内置 learning loop 的 agent。这个判断在 agent 层是成立的:它有持久记忆、自动 skill creation、skill 使用中的改进、跨 session 搜索和用户建模。官方文档也明确写到,Hermes 会把 MEMORY.mdUSER.md 注入系统提示,skill 是按需加载的知识文档,并且 agent-created skills 会进入 ~/.hermes/skills/

这套机制的关键不是"模型会学习",而是"运行时会写出下一次运行时会读到的东西"。一次任务结束后,Hermes 可以把经验写进 skill;下一次相似任务触发 skill;skill 又改变下一次模型调用时的上下文。循环成立后,agent 的行为会在时间上积累。

可以把 Hermes 的学习路径画成这样:

flowchart LR
  A["运行轨迹"] --> B["压缩与筛选"]
  B --> C["L3 外部资产<br/>memory / skill / user model"]
  C --> D["检索与注入"]
  D --> E["L2 当前工作集"]
  E --> F["固定权重模型"]
  F --> G["工具行动与验证"]
  G --> A
  H["L1 静态权重"] --> F

这张图里,能被 Hermes 改写的是 C,不是 H。模型权重没有变,但 C 每次被注入后都会改变 F 的输入条件。行为上的持续变强来自这个 C 层的复利。

所以 Hermes 是 self-improving agent,但必须加限定词:它是 agent-layer self-improving,不是 weight-level self-improving。它把运行时信息内化成自己的外部结构,而不是内化成模型参数。

四、OpenClaw 的意义被误放大了

OpenClaw 不能再被简单写成"没有记忆"。截至 2026-05-23,OpenClaw 官方文档已经描述了三类记忆文件:MEMORY.md 存长期事实、偏好和决策,memory/YYYY-MM-DD.md 存 daily notes,DREAMS.md 存 Dreaming sweep 摘要。它还有 memory_searchmemory_get、SQLite/hybrid search 后端,以及 compaction 前的 automatic memory flush。Dreaming 则是可选的后台整合过程,会从短期信号里筛出候选,把合格内容晋升进 MEMORY.md

这已经越过了"静态配置文件"阶段。OpenClaw 不是只有 SOUL.mdAGENTS.mdTOOLS.md 和 ClawHub。它开始有一条从会话到日记、从日记到长期记忆、从长期记忆到检索注入的路径。

但这还不是最强意义上的 self-evolving agent。原因有三点。

第一,OpenClaw 的 Dreaming 主要进化的是记忆内容,不是 agent 源码或 harness 结构。它可以让 agent 更会记住项目事实、用户偏好和历史决策,但不等于它会自动修复自己的路由、工具调度、权限模型和回滚策略。

第二,OpenClaw 的 skill 生态仍以用户安装、社区分发和 AgentSkills 规范兼容为主。某些第三方 skill 会实现"self-improving"效果,但那是 skill 层能力,不应直接等同于 OpenClaw core 已经拥有 Hermes 式内置 skill 蒸馏回路。

第三,真正接近"源代码级自进化"的工作,反而是 2026-05-21 提交的 MOSS:它把 OpenClaw 当成生产 agent substrate,用故障证据驱动源码重写、试运行验证、用户同意后容器切换和健康检查回滚。这里 OpenClaw 是被进化的底座,不必然是进化机制本身。

因此,OpenClaw 的意义很大,但要放在正确位置。它最深远的部分不是"第一个自进化 agent",而是把个人 agent 的入口、网关、工作空间、记忆文件和技能生态做成了一个可被大规模使用的 substrate。Hermes 展示的是 agent 如何通过外部记忆和 skill 形成行为复利;OpenClaw 展示的是这种 agent substrate 如何进入日常入口;AHE/MOSS 展示的是 substrate 和 harness 本身如何被可观测地改造。

五、外部记忆如何 shadow 权重

外部信息要能 shadow 权重,不能只是堆在磁盘上。它必须进入一条完整的 page-in / page-out 路径。

第一,信息要可发现。文件名、frontmatter、索引、向量、关键词、时间戳和 provenance 都是 selector。没有 selector,外部存储只是冷数据,不是记忆。

第二,信息要能被精确换入当前上下文。大段资料全量塞进 L2 会增加 token 价格,也会降低容错率。更好的做法是让 L2 只装地图、约束和当前工作集,把材料留在 L3/L4,按需检索、裁剪和注入。

第三,信息要有优先级。旧记忆、当前 spec、测试结果、官方文档、用户刚刚确认的事实,不应该拥有同等权重。没有优先级的记忆系统会把 agent 拉回概率平均态。

第四,信息要能失效。外部记忆 shadow 权重的同时也会 shadow 新事实。过期的部署流程、失效的 API、曾经正确的偏好,都可能变成后续任务的幻觉源。记忆系统必须有压缩、替换、删除、审计和回滚。

第五,信息要经过验证。对编码 agent 来说,最可靠的 shadow 不是"一段写得很好的文字",而是文字背后的测试、类型检查、构建、回放和评测信号。Spec 给上下界,测试给不可争辩的边界。没有验证的记忆只是更持久的提示词。

这就是为什么 compact 的目标不是保留全部历史,而是丢弃已经完成的任务,把未完成目标、关键约束和下一步动作留在下一次 refill 里。不断把全量历史塞回上下文,会同时抬高价格和降低系统容错率。真正的无限工作边界来自外部存储、检索、压缩、遗忘和验证的组合,而不是把上下文窗口越撑越大。

六、为什么大公司会谨慎

"硅谷在压住 self-improve agent"这种说法,目前很难作为事实写进文章。公开资料能支持的判断更克制:前沿实验室已经把 AI-driven AI R&D 和 recursive self-improvement 当成重要议题,但公开产品化会被安全、治理、竞争优势和滥用风险共同约束。

Anthropic Institute 在 2026-05-07 发布的研究议程里,把 AI-driven R&D 单列为四个方向之一,并明确提到更强系统可能被用于开发后继版本。它关心的不是普通记忆文件,而是 AI 研发速度是否开始出现复合回报、如何观测 AI R&D telemetry、如果 intelligence explosion 临近,哪些干预点能减速或改变方向。

这说明一个现象:真正敏感的不是"agent 记住你喜欢 TypeScript",而是"agent 能在少人监督下稳定改进 AI 系统自身"。前者是产品体验,后者是能力增长机制。二者都叫 self-improvement,但治理等级完全不同。

公开系统大多会先把自我改进限制在可审计外部资产里:memory、skill、workflow、harness component、container image。这样做不是因为权重级学习不诱人,而是因为外部资产至少可以 diff、review、rollback、disable。权重级在线学习一旦成为用户态能力,审计和回滚都会困难得多。

七、这组文章应该怎样放

这个主题不适合塞回单篇 Hermes 横评里。更好的组织方式是四篇文章互相咬合:

四篇文章的关系很清楚:四层记忆解释"信息放在哪里",Hermes/OpenClaw 解释"产品怎么用它",AHE/MOSS 解释"harness 怎么进化",本文解释"为什么这些都还不是权重进化,但已经足以让 agent 在行为上持续变强"。

八、结论

外部记忆不能神秘地替代模型权重,但可以在具体任务上 shadow 模型权重。它通过检索、注入、验证和回滚,把当前环境里更高优先级的信息压到模型默认分布之上。

这也是 self-improving agent 最现实的边界。短期内,真正可落地的自我改进不会主要发生在权重里,而会发生在可审计的外部结构里:memory、skill、spec、test、workflow、harness、source patch、container image。智能的增长不只来自模型内部处理信息的能力,也来自系统获取正确信息、选择正确信息、丢弃错误信息、验证行动结果的能力。

下一代 scaling 不只是更大的模型和更长的窗口,而是更好的外部状态管理。模型像 CPU,当前上下文像工作集,外部记忆像多级存储,harness 像操作系统。真正重要的问题不是"能不能把所有东西都塞进上下文",而是"什么东西应该在什么时候被换入,什么东西应该被丢弃,什么东西必须被测试证明"。

这个答案也解释了为什么 harness 可能是永存的。只要智能系统要在一个外部世界里行动,环境里的正确信息、工具边界、验证信号和组织约束就不可能完全由模型内部替代。模型会越来越强,但环境永远在变。harness 的工作,就是把正在变化的世界压成模型此刻能可靠使用的上下文。

参考资料