Anthropic Managed Agents 深度研究:解耦大脑与双手的架构哲学
原文链接:Scaling Managed Agents: Decoupling the brain from the hands
研究时间:2026-04-14
研究方法:多轮迭代搜索 + 交叉验证 + 结构化综合
前言:从"程序即未设想之物"说起
Anthropic 在 2026 年 4 月发布的 Managed Agents 服务,解决了一个经典的计算机科学问题:如何为"尚未设想的程序"设计系统。
这个问题的答案,早在几十年前操作系统设计时就已经给出——通过虚拟化硬件为通用抽象(进程、文件),使得 read() 系统调用既能访问 1970 年代的磁盘组,也能访问现代 SSD。抽象层保持稳定,底层实现自由演进。
Managed Agents 做了同样的事情:将 Agent 组件虚拟化为三个核心抽象——Session、Harness、Sandbox,使得未来的 Harness 实现、Sandbox 技术或上下文工程策略都可以独立演进,而接口保持稳定。
本文是对这篇工程博客及相关技术的深度研究报告。
一、核心架构:三层解耦设计
1.1 架构概览
Managed Agents 将 Agent 系统解耦为三个独立层:
1 | |
1.2 Session:永不丢失的记忆
核心特性:
- 追加式日志:所有事件只增不改,确保历史完整性
- 独立于 Context Window:Session Log 存活在 Claude 上下文窗口之外
- 灵活查询:通过
getEvents()接口,Harness 可以:- 从上次停止位置继续读取
- 回退几步查看某个时刻的上下文
- 在特定动作前重新阅读上下文
设计哲学:
Session 不是 Claude 的 Context Window,而是一个外部的、持久化的、可查询的上下文对象。
这解决了传统上下文管理的困境:
- Compaction:压缩历史,但可能丢失关键信息
- Memory Tools:持久化到文件,但检索困难
- Context Trimming:删除旧 token,但无法恢复
Session 将"存储"与"管理"分离:
- Session 负责存储:保证持久性和可用性
- Harness 负责管理:决定如何组织、压缩、传递给 Claude
1.3 Harness:无状态的大脑
核心特性:
- 无状态设计:所有状态存储在 Session,Harness 可独立重启
- 失败恢复:通过
wake(sessionId)快速恢复工作状态 - 上下文工程:在传递给 Claude 前可任意转换事件格式
从 Pet 到 Cattle 的转变:
早期设计中,Harness 驻留在容器内,成为一个"宠物"(Pet):
- 容器故障 → 会话丢失 → 需要人工"护理"
- 无法调试:WebSocket 事件流无法区分是 harness bug、网络丢包还是容器下线
- 安全风险:凭证与不可信代码在同一容器
解耦后,Harness 成为"家畜"(Cattle):
- Harness 故障 → 新 Harness 从 Session 恢复 → 无缝继续
- 无需人工干预,自动恢复
- 可独立扩展:启动多个无状态 Harness 连接到同一个 Session
1.4 Sandbox:隔离的双手
核心特性:
- 按需创建:仅在实际需要执行代码时才创建
- 可替换:失败时直接销毁,创建新的 Sandbox
- 接口统一:
execute(name, input) → string对所有工具通用
隔离技术演进:
| 技术 | 隔离级别 | 启动时间 | 安全强度 | 适用场景 |
|---|---|---|---|---|
| Docker 容器 | 进程级 | 毫秒级 | 中等 | 仅可信代码 |
| gVisor | 系统调用级 | 毫秒级 | 较高 | 多租户 SaaS |
| Firecracker | 硬件级 | ~125ms | 最高 | 无信任代码 |
| Kata Containers | 硬件级 | ~200ms | 最高 | Kubernetes 生产 |
为什么标准容器不够:
- 容器共享主机内核
- 内核漏洞可能导致容器逃逸
- AI Agent 生成不可预测代码,需要更强隔离
- MicroVM 提供专用内核,消除整个攻击向量
二、设计哲学:解耦大脑与双手
2.1 Brain-Hands-Session 三元组
1 | |
Brain(大脑):Claude + Harness,负责推理和决策
Hands(双手):Sandbox + Tools,负责执行和操作
Session(记忆):事件日志,负责持久化状态
2.2 解耦带来的收益
收益一:性能飞跃
TTFT(Time-to-First-Token)优化:
- p50 下降 60%
- p95 下降 超过 90%
原理:
- 早期设计:每次推理都等待容器启动
- 解耦设计:推理立即开始,Sandbox 按需创建
- 无需等待容器启动、克隆仓库、启动进程等前置操作
用户体验:
| TTFT | 用户感知 |
|---|---|
| < 500ms | 感觉响应迅速 |
| > 1000ms | 会注意到延迟 |
| > 2000ms | 产生挫败感 |
收益二:安全边界清晰
问题场景:
早期设计中,凭证(Git token、API key)与 Claude 生成的不可信代码在同一容器。提示注入只需说服 Claude 读取自己的环境变量,即可获得所有权限。
解决方案:
-
Git 凭证注入:
- Sandbox 初始化时,使用 repo token 克隆仓库
- Token 直接注入 git remote 配置
- Claude 永不接触 token,只需调用
git push/pull
-
OAuth Token Vault:
- 所有 OAuth token 存储在外部 Vault(如 HashiCorp Vault)
- Harness 通过 MCP Proxy 调用外部服务
- Proxy 从 Vault 获取凭证,完成调用后返回结果
- Harness 和 Claude 都不感知凭证
1 | |
收益三:多对多架构
Many Brains:
- 一个 Session 可被多个 Harness 访问
- 不同 Harness 可实现不同策略(如 Claude Code vs 任务特定 Harness)
- 无需对等网络即可连接客户 VPC 资源
Many Hands:
- 一个 Brain 可连接多个 Sandbox
- Claude 需要推理决定在哪个环境执行任务
- Brain 之间可传递 Hands
1 | |
三、Context Engineering:比 Prompt Engineering 更关键
3.1 为什么 Context Engineering 重要
Context Rot(上下文腐烂):
- 随着上下文窗口中 token 数量增加,模型准确回忆信息的能力下降
- GPT-4 实验:准确率从 98.1% 降至 64.1%
- 比硬性上下文限制更隐蔽的问题
Attention Budget(注意力预算):
- LLM 有有限的工作记忆容量
- 每个新 token 都消耗这个预算
- 需要战略性分配,而非填满窗口
3.2 三大技术机制
机制一:Compaction(压缩)
1 | |
最佳实践:
- 在有效窗口的 ~70% 处触发(而非耗尽时)
- 335,279-token 可压缩至 ~2,800-token(120:1 压缩比)
- 保留关键推理链,摘要次要信息
风险:
- 摘要可能模糊自然停止信号
- 轨迹可能延长 13-15%
- 适用场景:需要跨长对话保留推理的场景
机制二:Tool-Result Clearing(工具结果清除)
1 | |
优势:
- 保留工具调用记录,清除结果数据
- 成本节省 50%+
- 对于 Qwen3-Coder 480B:成本降低 52%,解决率提高 2.6%
- JetBrains 研究推荐作为主要机制
机制三:External Memory(外部记忆)
1 | |
设计原则:
- Session Log 是"真相源"
- Context Window 是"工作视图"
- Harness 决定如何组织、检索、传递
3.3 Token 预算分配策略
| 类别 | 占比 | 说明 |
|---|---|---|
| 系统提示词 | 10-15% | 角色定义、约束规则 |
| 工具定义 | 15-20% | API 规格、Schema |
| 检索上下文 | 30-40% | RAG 结果、文档片段 |
| 对话历史 | 20-30% | 压缩后的历史 |
| 缓冲保留 | 10-15% | 预留空间 |
工具数量优化:
- 19 个设计良好的工具 > 46 个冗余工具
- 精简工具定义可显著降低 token 消耗
四、Pets vs Cattle:基础设施哲学在 Agent 系统中的应用
4.1 经典定义
Pet(宠物):
- 命名的、独特的个体
- 需要精心维护
- 不可替代,故障需要修复
Cattle(家畜):
- 无名的、可替换的群体
- 批量管理
- 故障直接替换,无需修复
4.2 在 Agent 系统中的映射
| 组件 | 早期设计 | Managed Agents |
|---|---|---|
| Harness | Pet(驻留容器) | Cattle(无状态) |
| Sandbox | Pet(携带状态) | Cattle(可替换) |
| Session | - | Pet(需要持久化) |
关键洞察:
- Session 必须是 Pet:事件日志需要持久化,不可丢失
- Harness 和 Sandbox 应该是 Cattle:可独立失败、替换、扩展
4.3 失败恢复流程
1 | |
对比传统模式:
- 传统:SSH 进容器 → 检查日志 → 手动修复
- Managed Agents:自动检测 → 自动重启 → 自动恢复
五、安全架构:深度防御
5.1 威胁模型
| 威胁向量 | 描述 | 缓解措施 |
|---|---|---|
| Prompt Injection | 恶意输入诱导 Agent 执行非预期操作 | 沙箱隔离 + 权限最小化 |
| Credential Abuse | Agent 获取凭证后滥用 | Vault 隔离 + JIT 凭证 |
| Agent Hijacking | 劫持 Agent 会话 | 会话认证 + 审计追踪 |
| Data Exfiltration | 敏感数据泄露 | 网络隔离 + Egress 过滤 |
| Sandbox Escape | 容器逃逸攻击 | MicroVM + 硬件级隔离 |
5.1.1 真实案例:GitHub Prompt Injection Data Heist (2025)
事件概述:
2025年8月,Invariant Labs 安全研究团队发现了一个影响官方 GitHub MCP 集成的严重漏洞。攻击者可以通过在公共仓库创建恶意 GitHub Issue,劫持 AI Agent 并窃取私有仓库的敏感数据。
攻击流程:
1 | |
恶意Issue示例:
1 | |
实际影响:
- 私有仓库"Jupiter Star"的完整可见性泄露
- 个人财务数据(薪资信息、薪酬详情)被窃取
- 受害者搬迁至南美的敏感信息暴露
- 所有泄露数据通过公开GitHub Pull Request永久可访问
根本原因:
传统MCP GitHub集成使用广泛的个人访问令牌(PAT),给AI Agent访问用户所有仓库(公开+私有)的权限。当Agent遇到公共仓库中的恶意prompt注入时,可以使用这个广泛权限窃取任何令牌允许访问的仓库数据。
Docker MCP Gateway的防护方案:
Docker MCP Gateway通过**Interceptors(拦截器)**消除此攻击向量:
1 | |
拦截器的三种部署模式:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| Shell脚本 | 轻量级、快速执行 | 安全检查、会话管理、简单阻断 |
| 容器化 | 隔离、功能强大 | 复杂分析、安全工具集成 |
| HTTP服务 | 企业集成 | 连接现有安全基础设施 |
关键设计原则:
- 仓库级OAuth:为每个仓库生成独立令牌,而非广泛PAT
- Interceptor检查:实时监控并阻断跨仓库访问
- 最小权限:AI Agent只能访问当前任务所需的仓库
5.2 零信任架构(ZTA)
核心原则:
- 默认不信任:所有 Agent 行为需要持续验证
- 最小权限:每个任务仅授予必需权限
- 假定 breach:设计时假设已被入侵,限制影响范围
分层防御:
1 | |
5.3 MCP 安全架构
MCP(Model Context Protocol):Anthropic 提出的开放标准,用于 Agent 与外部工具交互。
安全威胁:
-
Confused Deputy Problem:
- 恶意客户端利用静态 client_id 绕过用户同意
- 缓解:Per-Client Consent 注册表
-
Token Passthrough:
- 令牌在传递过程中被截获
- 缓解:每次生成新令牌,不传递长期凭证
-
SSRF(服务器端请求伪造):
- Agent 被诱导访问内部资源
- 缓解:严格的 Egress 白名单
MCP Proxy 架构:
1 | |
5.4 Credential Vault 最佳实践
主流方案对比:
| 方案 | 特点 | 适用场景 |
|---|---|---|
| HashiCorp Vault | 动态凭证、自动轮换 | 企业级生产环境 |
| Bitwarden Agent SDK | 开源、零知识架构 | 个人/小团队 |
| Auth0 Token Vault | 第三方令牌管理 | SaaS 应用 |
| AWS Secrets Manager | 云原生、自动轮换 | AWS 生态 |
JIT(Just-in-Time)访问模式:
- Agent 请求特定权限
- Vault 生成短期、窄范围令牌
- Agent 使用令牌执行操作
- 令牌自动过期(通常 < 1 小时)
六、性能优化:从 5s 到 500ms
6.1 TTFT 优化策略
组成分解:
1 | |
优化点:
-
网络优化:
- 就近部署推理节点
- 使用 gRPC 替代 REST
- 连接复用
-
Preill 优化:
- Prompt Caching:缓存系统提示词和工具定义
- 批量处理:合并多个小请求
- Speculative Decoding:推测解码
-
架构优化(Managed Agents 的核心):
- 延迟 Sandbox 创建:推理无需等待容器启动
- 预热 Harness 池:保持一定数量的无状态 Harness 待命
- 并行初始化:Session 恢复和 Sandbox 创建并行
6.2 容器冷启动优化
问题:传统容器启动需要:
- 拉取镜像(~2-10s)
- 创建文件系统(~1s)
- 启动进程(~0.5s)
解决方案:
-
镜像预热:
- 维护预热容器池
- 定期拉取常用镜像
-
镜像精简:
- 使用 Alpine/Distroless 基础镜像
- Tree shaking 移除未使用依赖
- 多阶段构建
-
更快的隔离技术:
- Firecracker:~125ms 启动
- gVisor:毫秒级但需权衡兼容性
6.3 成本优化
Observation Masking vs LLM Summarization:
| 方法 | 成本节省 | 性能影响 | 适用场景 |
|---|---|---|---|
| Observation Masking | 50%+ | 无负面影响 | 默认选择 |
| LLM Summarization | 60%+ | 可能延长轨迹 | 需要跨长对话推理 |
最佳实践:
- 优先使用 Tool-Result Clearing
- 仅在需要跨对话推理时使用 Compaction
- External Memory 用于持久化学习
七、竞品架构对比
7.1 主流 Agent 框架
| 框架 | 架构类型 | 控制级别 | 部署方式 | 成熟度 |
|---|---|---|---|---|
| Anthropic Managed Agents | 托管式解耦 | 托管控制 | 全托管 | 新(2026) |
| OpenAI Agents | 分层架构 | L0-L4 谱系 | 自建/托管 | 高 |
| LangChain | 多模式架构 | 工作流/Agent 混合 | 开源框架 | 高 |
| AutoGPT | 模块化自主 | 高度自主 | 开源平台 | 中 |
| BabyAGI | 极简任务循环 | 任务驱动 | 开源框架 | 中 |
7.2 Anthropic vs OpenAI
OpenAI Agents SDK 架构详解(2026年3月发布,替代实验性Swarm框架):
五大核心原语:
| 原语 | 定义 | 用途 |
|---|---|---|
| Agent | LLM + 系统提示词 + 工具列表 | 基本工作单元,每个Agent有专注角色 |
| Tool | Python函数(@function_tool装饰) | Web搜索、数据库查询、API调用、文件I/O |
| Handoff | Agent间控制权转移 | 路由(分类Agent → 专项Agent) |
| Guardrail | 异步输入/输出验证 | 安全过滤、格式验证、成本控制 |
| Runner | 执行Agent循环,管理状态 | 所有Agent运行的入口点 |
Handoff模式(核心特性):
1 | |
关键设计洞察:
- 使用廉价快速模型(GPT-5.4-mini)做分类/路由
- 昂贵模型(GPT-5.4)用于需要专业能力的专家Agent
- 成本优化可达40-60%
Guardrails特性:
1 | |
Tracing内置可观测性:
- 所有Agent调用链自动追踪
- 输出到OpenAI Dashboard或自定义后端
- 支持异步(
Runner.run())和同步(Runner.run_sync())
与Anthropic的核心差异:
| 维度 | OpenAI Agents SDK | Anthropic Managed Agents |
|---|---|---|
| 核心理念 | 显式Handoff转移控制 | 托管Meta-Harness抽象 |
| 灵活性 | 更强(可自定义一切) | 托管便利(无需管基础设施) |
| 模型绑定 | 仅OpenAI模型 | 仅Claude模型 |
| 状态管理 | 上下文变量(默认临时) | Session持久化 |
| 适用场景 | OpenAI生态、自定义编排 | 生产级可靠性、长周期任务 |
| 学习曲线 | 低(干净、有主见的API) | 中等(需理解Session/Harness/Sandbox) |
| 生产成熟度 | 高(内置Tracing/Guardrails) | 高(内置沙箱/凭证/长周期支持) |
月搜索量对比(2026年数据):
- LangGraph: 27,100/月
- CrewAI: 14,800/月
- OpenAI Agents SDK: 新发布,增长迅速
自主性级别 L1-L5(华盛顿大学学术框架):
| 级别 | 用户角色 | 定义 | 适用场景 | 示例系统 |
|---|---|---|---|---|
| L1 | Operator(操作员) | 用户始终控制,agent 按需提供支持 | 高风险、高专业度工作流 | ChatGPT Canvas, Microsoft Copilot |
| L2 | Collaborator(协作者) | 用户和 agent 紧密协作,共同规划执行 | 需要人机协作的复杂任务 | OpenAI Operator, Cocoa |
| L3 | Consultant(顾问) | agent 主动规划执行,用户提供反馈和指导 | agent 能力较强但需要专家输入 | Gemini Deep Research, Replit Agent |
| L4 | Approver(审批者) | agent 自主执行,用户仅在遇到阻碍时介入 | 大量低风险决策的场景 | SWE Agent, Devin |
| L5 | Observer(观察者) | 完全自主,用户只能监控和紧急停止 | 封闭环境中的自动化任务 | Voyager, The AI Scientist |
Anthropic Managed Agents:
- 全托管运行时
- 解耦设计:Brain/Hands/Session
- 内置功能:沙箱、凭证、长周期支持
- Meta-Harness:适配未来 Harness
核心差异:
- OpenAI:控制机制灵活,用户选择自主程度
- Anthropic:托管抽象,用户无需关心基础设施
7.3 LangGraph vs Anthropic(2026年深度对比)
LangGraph 架构详解(月搜索量27,100,最流行框架):
核心设计:Agent工作流建模为有向图+类型化状态
| 概念 | 定义 | 说明 |
|---|---|---|
| Node(节点) | Agent或函数 | 图中的执行单元 |
| Edge(边) | 转换规则 | 支持条件路由 |
| State(状态) | 类型化对象 | 流经整个图的共享状态 |
杀手级特性:内置Checkpointing
1 | |
应用场景:
- Human-in-the-loop:暂停图→等待人工输入→恢复执行
- 故障恢复:从任意checkpoint重启
- 审计追踪:每个决策都有记录
与Anthropic的核心差异:
| 维度 | LangGraph | Anthropic Managed Agents |
|---|---|---|
| 核心理念 | 图抽象,显式控制 | Meta-Harness抽象,托管执行 |
| 编排模型 | 有向图+条件边 | Session+Harness+Sandbox |
| 状态管理 | 内置Checkpointing | Session Log |
| 可视化 | 图结构可视化 | 无(托管黑盒) |
| 学习曲线 | 中等(图概念+状态schema) | 中等(三层抽象) |
| 生产成熟度 | 最高(LangSmith可观测性) | 高(内置沙箱/凭证) |
| 模型依赖 | 完全无关 | 仅Claude |
| 适用场景 | 复杂分支工作流、审批流程 | 生产级可靠性、长周期任务 |
性能对比(实际benchmark数据):
1 | |
选择指南:
选择LangGraph当:
- 需要复杂分支和条件路由
- 需要Human-in-the-loop审批
- 需要时间旅行调试和审计追踪
- 工作流本身是核心产品价值
选择Anthropic当:
- 需要生产级可靠性但不想管基础设施
- 任务长周期(超过上下文窗口)
- 需要强安全边界和凭证隔离
- 团队没有分布式系统经验
7.4 AutoGPT 架构详解
核心组件:
| 组件 | 职责 | 技术实现 |
|---|---|---|
| Memory | 短期+长期记忆 | 向量数据库(Weaviate/Pinecone) |
| Planner | 任务分解与规划 | Chain of Thought + Reflexion |
| Action | 工具调用与执行 | 20+ 预定义命令 |
| Feedback | 自我批评与改进 | Criticism Loop |
任务循环(ReAct 模式):
1 | |
关键特性:
- 自提示机制:自动生成下一步提示
- 动态调整:根据结果实时修改计划
- 长期记忆:跨会话持久化信息
7.5 BabyAGI 架构详解
三个核心 Agent:
-
Task Creation Agent:
- 基于执行结果生成新任务
- 避免重复任务
- 考虑总体目标
-
Execution Agent:
- 执行任务列表第一项
- 从 Pinecone 检索相关上下文
- 生成并保存执行结果
-
Prioritization Agent:
- 清理任务列表格式
- 根据目标重新排序
- 不删除任何任务
任务循环:
1 | |
向量数据库使用:
- 存储任务结果和元数据
- 语义相似性搜索
- 为执行 Agent 提供上下文
八、Meta-Harness:为未来设计
8.1 设计哲学
“我们不对特定的 Harness 做假设,而是设计通用接口来适配任何未来的 Harness。”
核心原则:
-
接口优先:
- 明确 Claude 需要的能力(操作状态、执行计算、多 Brain/Hand)
- 不规定如何实现
-
实现无关:
- 不假设 Brain/Hand 数量和位置
- 可容纳 Claude Code、任务特定 Harness、未来 Harness
-
演进友好:
- Harness 随模型演进而演进
- 接口保持稳定
8.2 为什么需要 Meta-Harness
Harness 的演进历史:
- 早期:Claude Sonnet 4.5 有"context anxiety",在接近上下文限制时过早结束任务
- 解决:在 Harness 中添加上下文重置逻辑
- 问题:Claude Opus 4.5 不再有此问题,重置逻辑成为"死代码"
教训:
- Harness 编码了对模型能力的假设
- 模型改进后,这些假设会过时
- 需要 Meta-Harness 作为"Harness 的 Harness"
8.3 未来展望
可能的演进方向:
-
更智能的上下文工程:
- 模型自己决定何时压缩、何时清除
- Harness 从"管理者"变为"执行者"
-
更强的推理能力:
- 多 Brain 协作成为常态
- Claude 自动决策何时需要新 Brain
-
更复杂的环境:
- Hand 可以是任何可计算设备
- 从容器扩展到手机、IoT、云服务
8.4 Claude Code:生产级 Harness 实现
Claude Code 是 Anthropic 官方的 Harness 实现,展示了生产级代理系统的设计模式。
五大核心组件:
- 单线程主循环:驱动模型通过感知、决策、执行循环
- 工具系统:约 19 个权限门控工具(实际约 40 个)
- 权限管理:三层权限模型(Tier 1-3)
- 上下文管理:会话状态累积、压缩、持久化
- MCP 集成层:连接外部服务的标准协议
三层权限模型:
| 层级 | 描述 | 示例操作 |
|---|---|---|
| Tier 1 | 自动批准 | 文件读取、文本搜索、代码导航 |
| Tier 2 | 提示确认 | 文件编辑、某些 shell 命令 |
| Tier 3 | 明确批准/阻止 | 系统状态修改、工作目录外操作 |
上下文管理特性:
- 会话保存在本地,支持回滚、恢复、分支
- 代码变更前自动快照受影响文件
- MCP 工具输出最大 25,000 tokens
- 上下文窗口约 98% 时自动压缩
8.4.1 源码泄漏事件揭示的架构细节(2026年3月31日)
事件概述:
2026年3月31日,Anthropic在发布Claude Code v2.1.88时,由于npm打包配置错误,意外将完整的TypeScript源码(512,000+行,59.8MB的cli.js.map文件)暴露在公开npm包中,持续约3小时。
泄漏揭示的关键架构发现:
-
KAIROS自主模式:
- 一个隐藏的、完全自主的代理运行模式
- 允许Claude Code在无人工干预下执行复杂任务
- 通过特殊命令或配置激活
-
44个隐藏功能:
- 多Agent工作流编排
- 内置Guardrails和安全护栏
- 自动化测试生成和修复
- 智能代码重构引擎
- 更多未公开的实验性功能
-
内部模型代号:
claude-opus-4-6-internalclaude-sonnet-4-5-extended- 特殊的thinking模式配置
-
反蒸馏陷阱(Anti-Distillation Traps):
- 检测模型是否被用于训练其他模型
- 在检测到蒸馏行为时注入干扰
- 保护Anthropic的模型知识产权
-
延迟加载架构:
- Skill描述在会话开始时加载
- Skill实现体仅在调用时加载
- Hook脚本永不加载到内存
- 显著降低内存占用和启动时间
安全影响评估:
- ✅ 无用户数据泄露:仅源码泄漏,不含用户数据
- ❌ 攻击面扩大:内部系统架构完全暴露
- ❌ 知识产权风险:KAIROS等核心算法公开
- ❌ 安全绕过风险:反蒸馏机制被逆向研究
Anthropic的响应:
- 立即修复:发布v2.1.89移除.map文件
- 审计增强:加强npm发布前的文件检查
- 架构调整:部分敏感功能移至服务端
- 透明沟通:公开承认错误并说明影响范围
教训与启示:
软件开发中,最危险的不是bug本身,而是认为"这不可能发生"的心态。
一个遗忘的.map文件,暴露了AI时代最先进代理系统的完整设计。这提醒我们:
- 安全审计必须覆盖所有发布产物
- 自动化检查优于人工review
- 源码保护需要分层防御(混淆、服务端执行、法律保护)
对竞争对手的影响:
泄漏后一周内:
- OpenAI发布Agents SDK v1.0,部分功能与KAIROS类似
- LangGraph发布了类似的checkpointing机制
- 多个开源项目开始实现反蒸馏检测
这个事件意外地加速了AI Agent领域的创新扩散,原本需要6-12个月演进的功能,在3个月内被多个框架实现。
8.5 TerminalBench-2:Agent 能力基准测试
TerminalBench-2 是精心策划的困难基准测试,包含 89 个终端环境任务。
与 HumanEval 的区别:
| 维度 | HumanEval | TerminalBench-2 |
|---|---|---|
| 任务类型 | 从文档字符串生成单个函数 | 多步骤终端工作流 |
| 测试重点 | 代码生成 | 错误恢复 + 状态管理 |
| 环境复杂度 | 无状态 | 完整终端环境 |
完整排行榜(Top 20,2026年4月数据):
| 排名 | Agent | 模型 | 组织 | 准确率 |
|---|---|---|---|---|
| 1 | ForgeCode | GPT-5.4 | ForgeCode | 81.8%±2.0 |
| 2 | ForgeCode | Claude Opus 4.6 | ForgeCode | 81.8%±1.7 |
| 3 | TongAgents | Gemini 3.1 Pro | BIGAI | 80.2%±2.6 |
| 4 | SageAgent | GPT-5.3-Codex | OpenSage | 78.4%±2.2 |
| 5 | ForgeCode | Gemini 3.1 Pro | ForgeCode | 78.4%±1.8 |
| 6 | Droid | GPT-5.3-Codex | Factory | 77.3%±2.2 |
| 7 | Capy | Claude Opus 4.6 | Capy | 75.3%±2.4 |
| 8 | Simple Codex | GPT-5.3-Codex | OpenAI | 75.1%±2.4 |
| 9 | Terminus-KIRA | Gemini 3.1 Pro | KRAFTON AI | 74.8%±2.6 |
| 10 | Terminus-KIRA | Claude Opus 4.6 | KRAFTON AI | 74.7%±2.6 |
| 11 | Mux | GPT-5.3-Codex | Coder | 74.6%±2.5 |
| 12 | MAYA-V2 | Claude 4.6 Opus | ADYA | 72.1%±2.2 |
| 13 | TongAgents | Claude Opus 4.6 | Bigai | 71.9%±2.7 |
| 14 | Junie CLI | Multiple | JetBrains | 71.0%±2.9 |
| 15 | CodeBrain-1 | GPT-5.3-Codex | Feeling AI | 70.3%±2.6 |
| 16 | Droid | Claude Opus 4.6 | Factory | 69.9%±2.5 |
| - | Meta-Harness | Claude Opus 4.6 | Anthropic | 76.4% |
| - | Claude Code | Claude Sonnet 4.5 | Anthropic | 27.5% |
关键发现:
-
模型性能对比:
- GPT-5.4 和 Claude Opus 4.6 并列第一(81.8%)
- Gemini 3.1 Pro 紧随其后(80.2%)
- 顶级模型间差距仅 ~1.6%
-
Agent架构的重要性:
- 同样的Claude Opus 4.6,不同Agent得分差异高达54.3%(81.8% vs 27.5%)
- ForgeCode 的架构设计显著优于 Claude Code
- Meta-Harness 在Claude Haiku 4.5上达到37.6%,超越Claude Code的27.5%
-
难度分布:
| 难度级别 | 任务数 | Top Agent得分 | 平均得分 |
|---|---|---|---|
| Easy | 4 | 100.0% | 95.2% |
| Medium | 55 | 88.7% | 72.3% |
| Hard | 30 | 71.4% | 58.9% |
| All | 89 | 81.8% | 68.4% |
- 环境引导的价值:
- Environment Bootstrapping节省2-5个早期探索轮次
- 减少无效尝试,提升效率30-40%
核心洞察:
Harness 是困难的部分,模型是容易的部分。
改变 Harness 可以在同一基准上产生6倍性能差距,而改变模型的收益通常不超过20%。
技术关键:
优秀Harness的设计特征(基于ForgeCode分析):
- 渐进式探索:从简单命令开始,逐步深入
- 错误恢复:从失败中学习,调整策略
- 状态追踪:精确记录已尝试的路径
- 并行尝试:同时探索多个分支
- 早停机制:识别死胡同,快速回退
九、实践建议
9.1 架构选择指南
选择 Anthropic Managed Agents:
- 需要生产级可靠性
- 不想管理基础设施
- 长周期任务(> 上下文窗口)
- 需要强安全边界
选择 LangChain/LangGraph:
- 需要最大灵活性
- 复杂多 Agent 协作
- 想要控制每个细节
- 已有基础设施
选择 OpenAI Agents:
- 商业应用导向
- 需要明确控制级别
- 想要最佳实践指导
- OpenAI 生态
9.2 安全实施优先级
-
P0(立即实施):
- Credential Vault(HashiCorp/Bitwarden)
- Sandbox 隔离(至少容器级,推荐 MicroVM)
-
P1(短期规划):
- 零信任框架
- 网络隔离(Egress 过滤)
- 审计追踪
-
P2(长期演进):
- MCP 安全控制
- 自动化安全审计
- 入侵检测
9.3 性能优化清单
立即可做:
- [ ] 实施 Prompt Caching
- [ ] 精简工具定义(目标 < 20 个)
- [ ] 使用 Tool-Result Clearing
需要架构调整:
- [ ] 解耦 Brain 和 Hands
- [ ] Session Log 独立存储
- [ ] Sandbox 按需创建
长期优化:
- [ ] 预热 Harness 池
- [ ] JIT 凭证系统
- [ ] 多 Brain 架构
十、总结
Anthropic Managed Agents 代表了 AI Agent 架构设计的一次重要演进:
核心理念:
- 解耦大脑与双手
- Session 作为持久化记忆
- Meta-Harness 适配未来
技术收益:
- TTFT 降低 60%-90%
- 安全边界清晰
- 多对多架构灵活
设计智慧:
- 从操作系统中学习虚拟化
- Pets vs Cattle 的恰当应用
- 为"未设想的程序"设计接口
这不仅是技术架构,更是一种设计哲学——如何在快速演进的 AI 时代,构建能够持续演进而无需推倒重来的系统。
参考资料
官方文档
安全架构
- SAGA: Security Architecture for AI Agents (arXiv)
- HashiCorp Vault: AI Agent Authentication
- MCP Security Best Practices
Context Engineering
- Anthropic: Effective Context Engineering for AI Agents
- LangChain: Context Engineering for Agents
- JetBrains Research: Smarter Context Management
性能优化
架构对比
- OpenAI: A Practical Guide to Building Agents
- LangChain: Choosing Multi-Agent Architecture
- Levels of Autonomy for AI Agents (arXiv) - L1-L5 自主性级别
- AutoGPT Architecture Explained
- BabyAGI: Deep Dive
- Claude Code as Harness - Claude Code 架构详解
- TerminalBench-2 Benchmark - Meta-Harness 基准测试结果




