Hermes 方案深度研究:一种面向长程自主智能体的编排与 Harness 架构
2026 年 2 月 25 日,Nous Research 在 GitHub 上开源了 NousResearch/hermes-agent,MIT 协议,定位是「a self-improving AI agent」。两个月后,仓库从不到 5,000 stars 一路推到 126k 左右,增速超过了过去两年多数开源 agent 项目;v0.11.0(2026-04-23)的发布说明在一个版本跨度里塞进了 1,556 commits、761 个 merged PR、29 位核心贡献者 [NousResearch/hermes-agent GitHub Releases]。在这个开源 agent 工具普遍把热度变现为 SaaS 的阶段,Hermes 选择了一条反向道路:把自己设计成一个运行在用户自己服务器上的长期驻留 agent,它的核心卖点不是对话质量,而是在时间维度上持续积累能力——从每次任务里蒸馏出 skill,自己维护记忆,跨平台、跨会话保持同一个"自己"。
与此同时,Anthropic 在 2024 年 12 月至 2026 年 3 月之间陆续发布了四篇 engineering 博客,把 agent harness 设计这件事从经验论讨论推进到了工程学范畴:《Building Effective Agents》《How we built our multi-agent research system》《Harness design for long-running application development》《Demystifying evals for AI agents》。这四篇博客构成了 2026 年整个 agentic coding 赛道的方法论底座。Hermes 和这条 Anthropic 主线之间是一种工程学意义上的互补关系:既不是竞争,也不是依附。拆解这种互补关系的具体形态,是本文要回答的核心问题。
本研究按技术、生态、历史、产品、批评五个视角切入,覆盖 Hermes 的架构、其与 Anthropic harness 主线的演化谱系、它在 2026 年 agent 赛道里的生态坐标、采用时的真实陷阱,以及围绕它的若干过度营销与仍然悬而未决的问题。
名字先澄清:四个 “Hermes” 的去重
AI 领域里叫 Hermes 的东西不止一个。一个严肃的技术讨论必须先做去重,否则后续所有判断都建立在错位的所指上。
| 名字 | 是什么 | 与本文的关系 |
|---|---|---|
| Hermes Agent | Nous Research 的开源 autonomous agent 框架,MIT 协议 | 本文研究对象 |
| Hermes / Hermes 2 / Hermes 3 / Hermes 4 | Nous Research 的开源 fine-tuned LLM 系列(Llama/Mistral 基座) | 同一公司的另一条产品线,和 Hermes Agent 不是同一件东西。由于 Hermes Agent 的 transport 层模型无关,这类开源模型可以经 OpenRouter、Hugging Face、NVIDIA NIM 等通用后端被 Hermes Agent 调用 |
| Hermes 的希腊神话原型 | 奥林匹斯众神的信使,主管跨界传递、边界与沟通 | Nous Research 的命名出处,某种程度上解释了 Agent 产品线为什么强调多平台信使能力 |
| 社区里偶尔流传的 “Anthropic Hermes” | 并不存在的实体,通常是把 Nous Research 的 Hermes Agent、Anthropic 的 harness engineering 实践、Claude Code 的 subagent 机制混为一谈 | 需要严格剥离 |
本文自始至终讨论的 Hermes = Nous Research 的 hermes-agent 开源项目。它是一个自我改进的自治 agent 框架,作者是 Nous Research 团队(主要维护者是 teknium1),代码在 GitHub 上完全公开可审计。之所以要在正文第一节就把这四个概念的层级厘清,是因为社区讨论里「Hermes」这个词的所指极其滑动——一条 X 帖子可能同时指代 Hermes Agent、Hermes 4 模型、甚至与某些 Claude 生态里的概念混讲,读者如果没意识到所指切换,很容易得出错误推断。
[PATTERN] 处理同名多实体的技术讨论:写作和阅读技术内容时,凡是涉及可能的多重所指(“Claude” 可能是模型也可能是 Claude Code;“Hermes” 可能是 Agent 也可能是 LLM 系列),第一件事是锁定本文采用的单一所指并写在显眼位置。混用同名实体是技术讨论里最常见的事实基础崩塌源。
技术解构:Hermes 的六层架构与封闭学习回路
Hermes 的核心结构可以拆成六层,每一层回答一个"agent 作为软件"必须回答的工程问题。这六层不是文档里的抽象命名,而是从官方 README、v0.9.0 到 v0.11.0 三个主要版本的 release notes 以及实际代码仓目录结构反向归纳出来的划分。
第 1 层:Agent 核(run_agent.py + transport ABC)
Hermes 的 agent 主循环在 run_agent.py 里。v0.11.0 的 Interface release 把格式转换和 HTTP 传输抽象到 agent/transports/ 下的 Transport ABC 中,覆盖四条路径:Anthropic Messages API、OpenAI 兼容厂商的 Chat Completions 默认路径、OpenAI Responses API(含 Codex)、AWS Bedrock Converse API [NousResearch/hermes-agent Release v0.11.0]。
这一层的设计语言是模型无关。Hermes 自己声明支持 Nous Portal、OpenRouter 的 200 多个模型、NVIDIA NIM、Xiaomi MiMo、z.ai/GLM、Kimi/Moonshot、MiniMax、Hugging Face、OpenAI、本地 endpoint;切换模型只需 hermes model 命令,不改代码、不换 API key 配置体系 [hermes-agent README]。这意味着 Hermes 不把自己绑定在任何一家模型厂商上,和 Claude Code(绑 Anthropic)、Codex CLI(绑 OpenAI)、Gemini CLI(绑 Google)的路径完全不同。
第 2 层:消息网关(gateway/)
Hermes 的 gateway 把自己接到 Telegram、Discord、Slack、WhatsApp、Signal、iMessage(通过 BlueBubbles)、WeChat、WeCom、DingTalk、Feishu、Matrix、Email、SMS、Home Assistant、Mattermost、Webhooks,以及 v0.11.0 新加的 QQBot,合计 17 个消息平台 [hermes-agent README + Release v0.11.0]。这一层是 Hermes 区别于所有 IDE 内置 agent 的核心差异点:它不活在你的 IDE 里,它活在你本来就在用的那些消息 app 里。
从架构角度看,gateway 是单进程、多 adapter 的模型:所有平台共享同一个 agent 核心,adapter 只做协议翻译。这带来两个直接后果:第一,用户在 Telegram 开的对话可以从 Slack 继续,Hermes 会跨平台保持会话连续性;第二,新加一个平台的边际成本是写一个 adapter,不是重构整个系统。
第 3 层:工具与 Toolset(tools/ + toolsets.py + Tool Gateway)
Hermes 内置超过 40 个工具,并在 v0.10.0 发布了 Nous Tool Gateway:付费 Nous Portal 订阅用户可以直接复用订阅额度调用 Firecrawl(web search)、FAL/FLUX 2 Pro(image gen)、OpenAI TTS、Browser Use(浏览器自动化),无需另行配置 API key [NousResearch/hermes-agent Release v0.10.0]。这一层的意义在于把"工具能力"和"API 账单"解耦:开发者写一个 Hermes 插件,不需要假设用户已经有十家外部 SaaS 的账号。
第 4 层:沙箱执行(六种后端)
Hermes 提供六种 terminal backend:local、Docker、SSH、Daytona、Singularity、Modal。其中 Daytona 和 Modal 提供 serverless 持久化——agent 环境在空闲时休眠,请求到达时唤醒,冷启动之间几乎零成本 [hermes-agent README]。这一组合给了 Hermes 部署形态的三种典型轮廓:
- 本地 / VPS 长期驻留:$5/月 VPS 就能跑,适合个人和小团队
- 企业内部部署:Docker + SSH,接进企业内网
- Serverless:Daytona / Modal,按需唤醒,适合低频但需要持久状态的自动化任务
能在 5 美元 VPS 跟 GPU 集群之间共享同一套抽象,背后是一条比较硬的工程线:无状态的 agent 核 + 有状态的外部执行环境。状态不归 agent 所有,归环境所有,所以环境可以休眠可以迁移,agent 只是入口。
第 5 层:封闭学习回路(memory + skills + session search)
这是 Hermes 官方主打、也是它区别于 OpenClaw 的核心差异层。官方原文是:“It’s the only agent with a built-in learning loop — it creates skills from experience, improves them during use, nudges itself to persist knowledge, searches its own past conversations, and builds a deepening model of who you are across sessions.” [hermes-agent README]
这个回路可以分解成四个相互咬合的子机制:
- Agent-curated memory:Hermes 不把记忆存储权全部交给用户,而是允许 agent 自己往
MEMORY.md与USER.md里追加它认为值得记下的事。它会主动 nudge 自己在合适的时机做持久化。 - Autonomous skill creation:当 Hermes 完成一个足够复杂的任务后,它有能力把这次经验蒸馏成一份 skill 文档。后续任务里当语境匹配时,这份 skill 会被 procedural memory 机制召回并被下一代模型继承改进。官方声称 Hermes 兼容
agentskills.io这个开源 skill 标准,这意味着同一份 skill 可以跨 agent 工具流通。 - FTS5 session search + LLM summarization:历次对话以 SQLite FTS5 索引落盘,Hermes 可以用 LLM 摘要的方式检索自己过去说过什么、做过什么。
- Honcho dialectic user modeling:接入
plastic-labs/honcho做辩证式用户建模,Hermes 不仅记"事实",还跟踪"用户是什么样的人"的模型,跨会话持续精修。
这一层的设计哲学是:不是让模型变强,而是让 agent 在一个固定模型上越跑越强。即使底层 LLM 不升级,Hermes 的 skill 库、memory、user model 也会持续膨胀,agent 的有效能力随之增长。这是封闭学习回路的字面意思:回路不靠模型权重更新,靠外部存储的经验资产累积。
第 6 层:子 agent 与并行编排(subagent orchestration)
Hermes 支持生成隔离的 subagent 来跑并行工作流。v0.11.0 在这一层做了一次关键升级——subagent 可以被赋予显式的 orchestrator 角色,能自己再生出 worker 子 agent,并通过 max_spawn_depth 控制递归深度(默认不嵌套)。同时,同级 subagent 之间共享一层 file-coordination,避免它们在文件系统上互相覆盖彼此的修改 [Release v0.11.0 “Smarter delegation”]。
把这六层合在一起看:Hermes 本质上是一个以消息网关为入口、以封闭学习回路为内核、以多后端沙箱为手脚、跨模型厂商自由切换的常驻 agent。它不是一个 IDE 插件,不是一个聊天机器人包装,也不是一个纯 SDK,而是一个"长在用户自己服务器上的软件生物"。
[PATTERN] 判断一个 agent 框架有没有长期价值:看它有没有"能力在时间上累积"的机制。只能把任务做完一次不留痕的 agent,和 Hermes 这种每次做完都能蒸馏出 skill 的 agent,一年之后的能力差距是复利级别的,不是线性级别的。
历史谱系:从 ReAct 到 Hermes 的 scaffolding 三级跃迁
Hermes 不是凭空出现。要理解它在 2026 年这个时点出现的必然性,需要把 agent 领域过去四年的关键工作串起来看——每一代方案都在回答上一代的失败模式,这条演化线直到 Hermes 和 Anthropic 四篇 harness 博客才合拢。
2022 - 2023:学术奠基
- ReAct(Yao et al., arXiv:2210.03629,2022-10)[Yao et al., 2022] 首次把 reasoning 和 acting 交织写进同一段 prompt,让 LLM 既生成思考轨迹又生成工具调用。它是所有后续 agent scaffold 的 ancestor,今天所有主流 agent loop 里都有 ReAct 的影子。
- Reflexion(Shinn et al., arXiv:2303.11366,NeurIPS 2023)[Shinn et al., 2023] 把"反思"作为 agent 的一等公民引入:agent 完成一次任务后用自然语言写出自我反思,下一轮把反思拼进 prompt,形成不靠权重更新的 verbal reinforcement。这是 Hermes skill creation 机制在学术上的先导。
- Voyager(Wang et al., arXiv:2305.16291,2023)[Wang et al., 2023] 在 Minecraft 里做了 lifelong learning——GPT-4 驱动的 agent 持续探索、生成技能、改进技能、复用技能。Voyager 的 skill library 几乎是 Hermes skills 系统的直接思想来源,区别只在于 Voyager 的 skill 是 JavaScript 代码,Hermes 的 skill 是自然语言文档 + YAML frontmatter。
[PATTERN] 识别一个工程项目的学术血脉:不看它引用谁,看它的核心机制能不能在三到五年前的学术论文里找到对应物。Hermes 的 memory curation 对应 Reflexion,skill library 对应 Voyager,subagent orchestration 对应 HuggingGPT 和 AutoGen——这不是抄袭,是工程化地把学术想法装配成可以长期运行的产品。
2024 - 2025:工程化爆发
2024 年是 agent 工程化的元年。三件事并行发生:
- Anthropic 的〈Building Effective Agents〉(2024-12-19) [Anthropic, 2024] 把 agent 从学术 demo 推向生产实践。它给出了六种 workflow pattern:prompt chaining、routing、parallelization、orchestrator-workers、evaluator-optimizer,以及 agent 本身作为一种自主形态。Evaluator-optimizer 成为后续所有 harness 设计的关键砖块。
- 多 agent 框架(LangGraph、AutoGen、CrewAI、MetaGPT)进入生产视野,但大多数停在"多 agent 如何协作"这一层,对"agent 长期运行"这个问题给不出系统答案。
- Cursor、Windsurf、Cline 等 IDE 内 agent 证明了 coding agent 作为产品形态可以盈利,把 agent 从"实验室好玩的东西"推到"每月付费的工具"。
2025 - 2026:Scaffolding 竞赛
2025 年下半年到 2026 年上半年发生了三件相互激发的事:
- Anthropic 连发三篇 harness engineering 博客,分别回答 research 系统如何分工、长程任务如何过 context 墙、evaluator 如何真正发挥作用。
- OpenAI 发布 Symphony(2026 年 3 月),把 issue tracker 当 control plane,把 coding agent 升级成常驻编排服务 [openai/symphony]。
- Nous Research 发布 Hermes Agent(2026-02-25),把 agent 从"干活工具"升级成"会在时间里长大的软件生物"。
这三件事共同揭示了一个事实:当模型能力到了某个阈值之后,模型外部的 scaffolding 设计成为决定 agent 产品差异化的主战场。Prompt Engineering → Context Engineering → Harness Engineering 的三级跃迁在这个阶段完成。(这条演化线的详细展开在此前的《驾驭工程全景:从 Prompt Engineering 到 Context Engineering 再到 Harness Engineering 的三级跃迁》里已经单独写过,本文只引用不复述。)
Hermes 的独特贡献是在 Harness Engineering 这一级之上叠加了时间维度:它要回答的不是"这一次任务怎么做好",也不是"这一批任务怎么协调",而是"这个 agent 跑半年之后应该比今天的自己强多少"。这是一个比 Anthropic harness 博客讨论的问题更远一步的问题。
| 演化阶段 | 代表工作 | 核心命题 |
|---|---|---|
| 学术奠基(2022-2023) | ReAct、Reflexion、Voyager | 让 LLM 既能 reasoning 又能 acting,并能从经验里回看 |
| 工程化爆发(2024-2025) | Anthropic Building Effective Agents、AutoGen、LangGraph、Claude Code、Cursor | 从 demo 到可以跑在生产的多 agent workflow |
| Scaffolding 竞赛(2025-2026) | Anthropic harness 三篇、OpenAI Symphony、Hermes Agent | 模型外部的编排、隔离、记忆、演化成为差异化主战场 |
| 时间维度(Hermes 引入) | Hermes 的 self-improving loop | 让 agent 在一个固定模型上跑得越久越强 |
生态定位:2026 年 agent 赛道里的坐标
Hermes 不是这条赛道上的独行者。要判断它的真实位置,必须和周边四类玩家横着比一次。下面这张表列出的对比维度刻意选了最能暴露架构差异的几项:部署形态、持久化记忆、UI 入口、模型绑定、license,而不是泛泛地列功能清单。
| 产品 | 形态 | 后端模型 | 持久化记忆 | UI 入口 | License |
|---|---|---|---|---|---|
| Hermes Agent | 开源常驻 agent(CLI + 消息网关) | 模型无关(BYO LLM) | 封闭学习回路(memory + skills + session search) | CLI / 17 个消息平台 | MIT |
| OpenClaw | 开源 agent(由 Peter Steinberger 发起,Hermes 的直接竞品) | 模型无关 | 有,但无 autonomous skill creation | CLI | MIT |
| Claude Code | CLI / IDE 扩展(闭源) | 绑 Anthropic | 基于 project skills 的局部记忆 | IDE + CLI | 闭源 |
| Claude Agent SDK | SDK 框架(Python 版 MIT 开源 / TypeScript 版 Anthropic 商业条款) | 绑 Anthropic | 由 SDK 使用者自己实现 | 取决于使用者 | 分版本 |
| OpenAI Symphony | 开源 spec + Elixir 参考实现 | Codex 绑 OpenAI | 无(每个 issue 一个一次性 agent) | Linear / 其他 tracker | Apache 2.0 |
| Devin | SaaS(闭源) | 自研 harness + 前沿模型 | 有,但数据归 SaaS 所有 | Web | 闭源 |
| GitHub Copilot Workspace | SaaS / IDE 内置(闭源) | GitHub 平台模型池 | 绑 GitHub Issues | IDE + GitHub UI | 闭源 |
| Aider | CLI(Apache 2.0) | 模型无关 | 无 | 终端 | Apache 2.0 |
| LangGraph / AutoGen / CrewAI | 开源编排框架 | 模型无关 | 由使用者自己实现 | SDK 调用方决定 | MIT / Apache 2.0 |
把这张表里的每一行都当成一个 agent 产品在答题,Hermes 答的题和别人答的根本不是一道题。
Claude Code 和 Claude Agent SDK 在回答"Anthropic 自家生态怎么把 Claude 模型包装成一个好用的 agent"。OpenAI Symphony 在回答"把 Codex 嵌入 issue 流水线要怎么设计编排契约"。Devin 和 Copilot Workspace 在回答"怎么让企业用户付费订阅一个完整的自动编码服务"。Aider 在回答"单文件 CLI agent 怎么做得好用"。LangGraph 和 AutoGen 在回答"给开发者一套多 agent 编排的积木"。
Hermes 回答的问题是:“一个普通开发者或小团队,怎么拥有一个 agent,让它住在自己的服务器上、用自己选的模型、接自己的消息 app、跑越久越强”。这是唯一一个把"agent 作为私有长期资产"作为核心命题的答案。
和 Hermes 最像、也最容易被混淆的是 OpenClaw。OpenClaw 由奥地利开发者 Peter Steinberger(PSPDFKit 创始人)发起,是 2026 年初 GitHub 上增速最快的开源 agent 项目之一,和 Hermes Agent 是直接的用户群体竞争关系而非同源项目。Hermes Agent 官方甚至为 OpenClaw 老用户专门准备了 hermes claw migrate 命令,一键迁移 SOUL.md、MEMORY.md、USER.md、skills、API keys、messaging settings [hermes-agent README “Migrating from OpenClaw”]。两者的核心差别是:OpenClaw 更像一个可被配置得很强的通用 agent 平台,Hermes 在此基础上多了一个封闭学习回路,它不等用户教它,它会从每次任务里自己蒸馏经验。
[PATTERN] 识别一个 agent 产品真正的竞争轴:不看它功能列表和竞品哪条对齐,看它在回答什么问题。如果它回答的问题和竞品不是同一道题,那它就不在传统意义上的竞争关系里,横向对比只能参考、不能决策。
Reviewer 与 SRE:Harness 的两种模式对照
Hermes 被社区广为讨论的一个具体场景是把它当做 supervisor 接在别的 agent(典型是 OpenClaw 或 Claude Code)之上:让被监督的 agent 继续干活,Hermes 在一个独立的 Discord 私有频道里值班,只在状态切换或出问题时介入。这个用法的社区范本是开发者 Graeme 发布的 Hermes-as-supervisor-for-OpenClaw 文章,它用一套极简的 4-marker 协议:
STATUS_REQUEST:例行问状态REVIEW_REQUEST:请帮我看一下这个产出ESCALATION_NOTICE:这个得你来定ACK:收到并终止当前回合
每条消息必须带一个 marker 和一个 @mention;ACK 是硬终止;没有 marker 的消息被当作 informational,不回复;每轮最多 3 次来回。
这套协议最值得注意的不是它能做什么,而是它不做什么。翻遍整个协议,没有任何一条通路是 Hermes 让 OpenClaw “重做” 某个输出。所有路径最终只分叉成两条:ACK(关闭当前回合)或 ESCALATION(连同诊断一起升级给人)。
Anthropic 在四篇 harness 博客里持续推进的 evaluator-optimizer 模式,和这种 Hermes-as-supervisor 模式表面都在做"角色分离 + 审查",但本质是两类完全不同的系统。
| 维度 | Anthropic 式 evaluator | Hermes-as-supervisor |
|---|---|---|
| 行业类比 | Code Reviewer | SRE / On-call |
| 信息流向 | 判断 → 生成者 → 修改 → 再判断(内循环) | 判断 → ACK 或 Escalate(外循环) |
| 系统边界 | 在任务执行期间做质量控制 | 在系统已经跑起来后做异常判断 |
| 终止条件 | 评审通过,合并 | ACK 或 Escalate,没有"永远评审通过"的概念 |
| 失败成本 | 多几轮迭代 | 误 ACK 一个真实故障 |
| 解决的问题 | “怎么把这个产出做得更好” | “出问题了要不要人介入” |
这两种模式不是替代关系,是两个阶段。一个 agent 项目如果还处在"产出质量不稳定"阶段,需要的是 Anthropic 的 evaluator-optimizer,让另一个角色帮它审查产出并驱动迭代。一个 agent 项目如果已经"产出基本稳定、但还是要天天盯着它",需要的才是 Hermes 式 supervisor——给你减负,有事带诊断来、没事别打扰。
把两个阶段混做一件事,是很多团队在 agent 工程化时踩到的第一个大坑:在 agent 产出还没稳定的时候就给它配 supervisor——supervisor 没法修代码,最多升级给人,结果人被叫得更勤、agent 还是干不对活。反过来也有坑:agent 已经稳定运行了,团队还在不断堆 evaluator 层,浪费 token 不说,真实故障反而被评审意见淹没。
[PATTERN] 给你的 agent 项目选 harness 模式:先问自己的瓶颈在哪。如果瓶颈是"agent 写的东西经常不对",选 reviewer 模式(evaluator-optimizer);如果瓶颈是"agent 的东西大体能用,但我每天还是要盯着它",选 SRE 模式(supervisor)。两种模式都有,但必须分阶段引入,不能同时上。
批评视角:被过度营销的部分与真实坑点
Hermes 的讨论在 2026 年 3 月至 4 月被放大到了"下一代 agent 默认入口"的程度,但一份严肃的技术研究必须把这层营销光环剥掉,才能回答"采用它的真实代价是什么"这个问题。
坑点一:star 数的观察效应
多个第三方来源在 2026 年 4 月中旬把 Hermes 描述为"一个月从 4,500 stars 冲到 100k+"的奇迹项目[sudoingX on X, 2026-04]。增长曲线本身真实(GitHub 仓库显示 stars 在 126k 左右),但它首先是观察效应,不是质量背书。Nous Research 本身在开源 LLM 圈有强社区,Hermes 4 模型的发布为这个新项目带来了免费的导流;加上 Sam Altman 等人在社交媒体上的提及,star 数被推高的部分动能来自注意力经济而非用户实际使用。
这不等于说 Hermes 不好。Hermes 的技术选择(封闭学习回路、多平台网关、模型无关)是扎实的。但用 stars 判断它对你是否适用,和用"某 AI 编程工具让团队 PR 数增加 500%"那种数字判断采用价值是同一种陷阱:公开的增长叙事服务于公开的增长叙事本身,不能替代对你自己语境的评估。
坑点二:封闭学习回路的"回路病"
Hermes 官方反复强调 “it’s the only agent with a built-in learning loop”。这句话在字面上是成立的——它确实是当前开源 agent 里唯一把 skill creation + memory curation + user modeling + session search 做成一个闭环的产品。但一个没被官方文档充分讨论的问题是:回路一旦形成,就有自我强化的偏差。
具体表现有三种:
- Skill 污染:如果 Hermes 从一次错误的任务里蒸馏出了错误的 skill,这份错误 skill 会被它自己召回、改进、继承到后续任务,错误被回路放大。用户不主动审计
~/.hermes/skills/的话,这种污染是隐形的。 - 记忆漂移:Honcho 维护的 user model 会随时间持续更新。如果某个阶段用户给了一批反常行为(压力项目、深夜调试),agent 会把它们固化进 user model。数周后用户已经回归常态,agent 还在按照"那个版本的你"响应。
- 回路的不可解释性:为什么 agent 今天给出了这个响应?是当前 prompt 驱动的、是某条 memory 触发的、是某个 skill 召回的、还是 user model 改写了它的默认行为?Hermes 的设计让这四条路径混在一起,排障时很难把责任归到具体某一层。
这不是 Hermes 独有的问题——所有做 lifelong learning 的 agent 系统都要处理这件事。Voyager 在 Minecraft 里遇到过、Reflexion 在论文里提过、Anthropic 在 harness 博客里也间接点到。但 Hermes 的文档目前没有对这个问题给出工程化的治理方案(如 skill 审计命令、memory 快照、回路阻断开关),这是用户在采用时必须自己补的那块。
坑点三:多平台网关的真实成本
"Telegram、Discord、Slack、WhatsApp、Signal、iMessage、WeChat、DingTalk、Feishu 全都能用"读起来很诱人,但每个平台的 adapter 背后都有具体的运维负担:
- API 配额:WhatsApp Business API 有消息配额;Telegram Bot API 对频率有限制;企业微信的回调域白名单要正确配;Feishu 需要租户级授权
- 安全边界:每个平台都是一个 exploit surface。v0.9.0 专门发布了一轮 comprehensive security hardening,包含 path traversal protection、shell injection neutralization、SSRF redirect guards、Twilio webhook signature validation、API server auth enforcement、git argument injection prevention [Release v0.9.0]。这组修复的规模本身就说明,agent 接上消息平台后要处理的安全问题远比 CLI-only agent 多
- 合规与审计:企业用户在 DingTalk / Feishu / WeCom 上接 agent,必须回答数据出境、内容留存、审计日志怎么对接内网合规系统的问题,这不是开箱即用的
一个简单的判断是:你不会把 17 个平台都接上。选其中 1-3 个(通常是 Telegram + Discord + CLI,或者企业场景下的 Feishu + CLI),剩下的 adapter 不要启用。Hermes 的设计允许按需启用,但文档在"哪些平台应该先启用、哪些暂不启用"上没有明确建议。
坑点四:对 Nous Portal 的隐性偏好
Hermes 声称模型无关,但 v0.10.0 的 Tool Gateway 架构里,Nous Portal 订阅用户能直接复用订阅来调 web search、image gen、TTS、browser automation,其他模型厂商的用户需要自己配这些工具的 API key。这不是错的,官方出工具也要出口,但它确实在生态层面创造了一种隐性偏好:用 Nous Portal 的用户路径最短、体验最顺。
这条偏好本身是合理的商业设计(Nous Research 需要收入来源来支持开源项目),但采用决策时要意识到:如果你的团队决定用 Hermes + 其他模型厂商(如 OpenAI、Anthropic),你需要自己补齐工具侧的 API 账户和 key 管理,Hermes 没有替你统一。这个补齐工作在企业语境下可能涉及财务审批、账号所有权、审计对接等一系列组织动作,不是纯技术问题。
坑点五:学习曲线和"配置疲劳"
README 写得很简洁:“curl 一行 install、hermes setup 配一下就能用”。这在玩具级使用上是对的。但当你开始:
- 配置 17 个消息平台里的 3 个
- 挑选合适的终端后端(local / Docker / SSH / Daytona / Singularity / Modal)
- 决定启用哪些工具、哪些插件
- 调整 context engine、compression 策略、subagent 的 max_spawn_depth
- 审计 auto-generated skills 的质量
- 设置 cron scheduler 跑定时任务
- 配 security hardening(path traversal、shell injection、SSRF 各条开关)
Hermes 的配置面就暴露出来了:它不是一个"开箱即用"的 agent,它是一个给你一个可配置 agent 底座的项目。真正在生产用起来的团队,通常要在配置上投入数小时到数天。这个投入可以接受,但不能在采用决策时低估。
[PATTERN] 评估一个"自我改进"类 agent 产品的真实代价:不看 README 承诺,看三件事——第一,学习回路出错时怎么回滚;第二,每新增一层外部能力(消息网关、工具、沙箱)带来多少运维和安全面积;第三,产品是不是默默地把"自家生态"设成了最短路径。这三件事回答完,你才知道采用之后会被绑在哪里。
采用决策:五个必答问题
读到这里,可以回答一个实际问题:到底要不要在你的团队或个人项目里用 Hermes?下面这五个问题不给答案,只定义判断框架。
一,你需要的是 coding agent 还是 general agent? Hermes 的设计是 general-purpose 的(可以 coding、可以做 research、可以跑 cron 任务、可以当消息 bot),不是专门为 coding 优化的。如果你的核心诉求是 IDE 内配对编程,Cursor、Claude Code、Windsurf 是更合适的选择;如果你要的是一个跨会话、跨平台、多任务的长期助手,Hermes 才在它的设计空间里。
二,你愿意让 agent 的"成长"掌握在自己服务器上吗? Hermes 的 memory、skills、user model 全部落在本地。如果你接受这个前提,包括它带来的备份责任、迁移成本、数据丢失风险,Hermes 是自然选择。如果你更倾向"我不管数据存哪,只要 SaaS 做好它",Devin 或 Copilot Workspace 更适合。
三,你的工作流主场在 IDE 还是在消息 app? Hermes 的 gateway 设计暗示了一个假设:开发工作的协作面正在从 IDE 外溢到 Slack / Telegram / Feishu。如果你在飞书群里讨论工程问题、用 Telegram 做个人 brain dump、在 Discord 运营一个开源项目,Hermes 能把这些散落的入口粘成一个统一的 agent。如果你大部分工作时间都在 IDE 里,Hermes 的 gateway 层就是多余的,Claude Code 之类的 IDE 内 agent 是更短路径。
四,你能承担"不被厂商替你兜底"这件事吗? Hermes 是开源项目,官方 Discord 和 GitHub Issues 是主要支持通道,不存在"打个电话有人接"的企业级 SLA。如果你的工作流能容忍"偶尔自己翻源码排障",Hermes 能给你最多的自由度。如果你在一个严格禁用无 SLA 软件的合规组织里,这道门槛会直接挡住。
五,你准备好做"agent 审计"这件事了吗? 上一节讨论的回路偏差、skill 污染、记忆漂移,不会在前三个月暴露,但在半年到一年的使用里一定会出现。采用 Hermes 意味着你要把 ~/.hermes/skills/、MEMORY.md、USER.md 当成一份需要定期 review 的代码资产对待——不是一次性部署完就不管的东西。有这个心理准备,Hermes 的封闭学习回路才是资产;没有,它会逐渐变成负债。
这五个问题答完,你就有了一个具体的采用判断。不需要参考 star 数,不需要看别人说 Hermes 是不是"下一个 xxx",只需要看你自己的语境。
模式速查表
把本文里提炼出来的 PATTERN 集中在这里:
| 场景 | 判断法则 | 口诀 |
|---|---|---|
| 处理同名多实体技术讨论 | 锁定本文采用的单一所指并写在显眼位置 | 同名不同实,开篇先去重 |
| 判断 agent 框架的长期价值 | 看它有没有"能力在时间上累积"的机制 | 一次性 agent 是消费品,累积型 agent 是资产 |
| 识别一个工程项目的学术血脉 | 核心机制能在三五年前论文找到对应物就行 | 工程不是发明,是装配 |
| 识别 agent 产品真正的竞争轴 | 看它在回答什么问题,不看功能列表对齐 | 不同题目之间没有竞品 |
| 给 agent 项目选 harness 模式 | 产出不稳选 reviewer,盯盘太累选 supervisor | Reviewer 管质量,SRE 管健康 |
| 评估 self-improving agent 的代价 | 回路出错怎么回滚 + 外部能力的运维面 + 生态默认路径 | 学习回路是复利,也是负债 |
结论:scaffolding 的半衰期
Anthropic 在 harness design 博客里有一句话值得反复引用——“every component in a harness encodes an assumption about what the model can’t do on its own, and those assumptions are worth stress testing” [Rajasekaran, 2026]。每一个 harness 组件背后都有一个"模型做不到这件事"的假设,这些假设应该定期被压力测试,因为模型在进化。Opus 4.5 需要 context resets,Opus 4.6 不再需要。为 4.5 搭的脚手架到了 4.6 就应该拆。
Hermes 的封闭学习回路面对的是同一条半衰期曲线。今天模型做不到跨会话记忆、做不到从经验里蒸馏 skill、做不到跨平台保持一致身份,所以 Hermes 在外面搭了一套 memory + skills + user model 的脚手架。等到未来某一代模型把这些能力内化,Hermes 当前架构里的很多层都会变成多余。这是 scaffolding 的基本事实:每一层都有半衰期,工程师的工作是一直在拆旧的、搭新的。
但这不意味着今天研究 Hermes 是在研究一个必将过时的东西。正因为每一代 scaffolding 都会过时,每一代的 scaffolding 设计才都是 agent 工程学里最值得积累的东西。Hermes 的设计价值不会在它被替代的那天消失。它示范的是:当模型还不够强的时候,怎么用外部结构把一个本来做不到 lifelong learning 的 LLM,装配成一个看起来会成长的 agent。这套装配思路会被下一代 scaffolding 继承,继续演化。
把 Hermes 放回 2026 年的 agent 设计空间来看,它是一次比较诚实的尝试。它没有承诺 AGI,没有承诺替代开发者,没有把自己包装成"只要装上就起飞"。它说的是一件比较朴素的事:给一个 agent,让它住在用户自己的服务器上,它会慢慢学用户、学用户的项目、学用户常做的事,用久了比今天好用一些。承诺不大,落地路径清楚,比绝大多数同类产品都更容易在半年时间尺度上被验证。
参考资料
- NousResearch/hermes-agent - GitHub 仓库(README 与源码)
- Hermes Agent 官方站点
- Hermes Agent 文档
- NousResearch/hermes-agent Releases(v0.8.0 / v0.9.0 / v0.10.0 / v0.11.0)
- Anthropic, Building Effective Agents, 2024-12-19
- Anthropic, How we built our multi-agent research system
- Prithvi Rajasekaran, Harness design for long-running application development, Anthropic, 2026-03-24
- Anthropic, Demystifying evals for AI agents
- Shunyu Yao et al., ReAct: Synergizing Reasoning and Acting in Language Models, arXiv:2210.03629, 2022
- Noah Shinn et al., Reflexion: Language Agents with Verbal Reinforcement Learning, arXiv:2303.11366, NeurIPS 2023
- Guanzhi Wang et al., Voyager: An Open-Ended Embodied Agent with Large Language Models, arXiv:2305.16291, 2023
- openai/symphony - GitHub 仓库与 SPEC.md
- The New Stack, OpenClaw vs. Hermes Agent: The race to build AI assistants that never forget
- Medium, The Agent Landscape in 2026: A Compass Through the Noise
- plastic-labs/honcho - Dialectic user modeling
- agentskills.io - 开源 skill 标准




