2024 年之前,AI 工程的核心问题是"怎么让模型更好"。2024 年之后,核心问题变成了"怎么让多个组件协作得更好"。这个转变的名字叫 Compound AI Systems,而围绕它的工程学科叫 Compound Engineering。本文从"为什么单体模型不够"出发,系统梳理复合 AI 系统的架构模式、工程实践和与其他 Engineering 概念的关系。

一个类比秒懂 Compound Engineering

在讲技术之前,先用一个类比。

想象你要建一座现代化医院

  • 单体模型思维就像雇一个全科天才医生,让他一个人看所有病人——内科、外科、眼科、牙科全包。他确实很聪明,但一个人的精力和专业深度终究有限。
  • Compound AI Systems 思维就像建一个多科室协作的医院系统:有分诊台(路由器)、各科室的专科医生(专用模型)、病历档案室(检索器)、化验室(外部工具)、会诊机制(多智能体协作)。每个组件做自己最擅长的事,通过协作协议连接在一起。
  • Compound Engineering 就是设计和运营这座医院的系统工程学科——不是培养更聪明的医生,而是设计更好的协作流程、更高效的信息流转、更可靠的质量控制。

这就是 Compound Engineering 的本质:从"培养更强的个体"到"设计更好的系统"

背景:为什么单体模型不够了?

"越大越好"的收益递减

2020-2023 年,AI 领域的主旋律是模型竞赛:参数量从 1750 亿(GPT-3)到 1.8 万亿(GPT-4),训练数据从 TB 级到 PB 级。每一代模型都比上一代"更聪明"。

但到了 2024 年,一个尴尬的事实浮出水面:模型能力的边际收益在递减,而工程优化的边际收益在递增

Berkeley AI Research(BAIR)实验室的 Matei Zaharia 在 2024 年 2 月的开创性博客 The Shift from Models to Compound AI Systems 中指出:

工程一个从模型多次采样、测试每个样本等的系统,可能会将性能提高到 80%,而额外的训练计算带来的收益微乎其微。

换句话说:与其花 10 倍的算力训练一个稍微好一点的模型,不如花 1/10 的成本设计一个更聪明的系统

三个催生 Compound AI Systems 的现实问题

问题一:幻觉无法靠模型本身解决。 无论模型多大,它都可能"一本正经地胡说八道"。但如果在模型前面加一个检索器(Retriever),让它基于真实文档回答问题,幻觉率可以大幅下降。这不是模型能力的提升,而是系统设计的胜利

问题二:知识时效性的结构性缺陷。 模型的知识截止于训练数据。但如果系统能在运行时检索最新信息(RAG),这个问题就被绕过了——不需要重新训练模型,只需要更新知识库。

问题三:成本与质量的不可能三角。 用 GPT-4 回答所有问题太贵,用 GPT-3.5 回答所有问题质量不够。但如果设计一个级联路由系统——简单问题用小模型,复杂问题才升级到大模型——就能在保持质量的同时降低 98% 的成本(Stanford 的 FrugalGPT 研究)。

这三个问题的共同点是:解决方案不在模型内部,而在模型外部的系统设计中

核心定义:什么是 Compound AI Systems?

定义

Compound AI System(复合 AI 系统) 是使用多个交互组件——包括多次模型调用、检索器、外部工具和专用模型——来协作解决 AI 任务的系统。

这个定义由 Matei Zaharia(Databricks 联合创始人兼 CTO、UC Berkeley EECS 副教授、Apache Spark 创建者)及其团队在 2024 年系统提出。它与传统的"单体模型"(Monolithic Model)形成鲜明对比:

维度 单体模型 复合 AI 系统
架构 单一模型端到端 多组件协作
性能上限 受限于模型能力 通过组件组合突破上限
成本 固定高成本 按任务复杂度动态调整
可靠性 幻觉难以避免 通过检索和验证大幅降低
知识更新 需要重新训练 仅需更新知识库或组件
可解释性 黑盒 每个组件可独立审计
韧性 单点故障 分布式故障模式,优雅降级

一句话概括

单体模型是"一个天才解决所有问题",复合 AI 系统是"一个团队各司其职"。

六大核心组件

一个典型的 Compound AI System 由以下六大组件构成:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
┌─────────────────────────────────────────────────────────────┐
│ Compound AI System │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 基础模型 │ │ 检索器 │ │ 外部工具 │ │ 专用模型 │ │
│ │ (LLMs) │ │(Retriever)│ │(Tools/API)│ │(Specialist)│ │
│ └─────┬────┘ └─────┬────┘ └─────┬────┘ └─────┬────┘ │
│ │ │ │ │ │
│ ┌─────┴─────────────┴─────────────┴─────────────┴────┐ │
│ │ 编排层(Orchestration) │ │
│ │ 任务分解 → 组件委派 → 数据流管理 → 错误恢复 │ │
│ └─────────────────────┬──────────────────────────────┘ │
│ │ │
│ ┌─────────────────────┴──────────────────────────────┐ │
│ │ 记忆系统(Memory) │ │
│ │ 短期记忆 │ 长期记忆 │ 情景记忆 │ │
│ └────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘

1. 基础模型(LLMs)

中央推理引擎,负责理解上下文、生成响应、协调其他组件。但在复合系统中,LLM 不再是"唯一的大脑",而是"团队中的一员"——它擅长推理和生成,但把检索、计算、验证等任务委托给更合适的组件。

2. 检索器(Retriever)

从外部知识库获取相关信息,是 RAG 架构的核心。检索器有两个关键维度:

  • 方法维度:关键词检索(BM25)、语义检索(向量嵌入)、混合检索
  • 阶段维度:初始检索(广泛搜索 Top-50)→ 重排序(精确过滤 Top-5)

3. 外部工具(Tools/API)

代码执行环境、Web 搜索引擎、数据库查询、计算器、领域特定 API 等。工具赋予了 AI 系统与真实世界交互的能力——模型不再只是"想",还能"做"。

4. 专用模型(Specialist Models)

针对特定任务优化的小型模型:嵌入模型(语义搜索)、分类模型(路由决策)、评分模型(质量评估)。它们比通用大模型更快、更便宜、更精准。

5. 编排层(Orchestration)

复合系统的"控制平面",负责:将复杂工作流分解为子任务、将任务委托给合适的组件、管理组件间的数据流、处理错误恢复和重试。LangChain、LlamaIndex、DSPy 等框架主要解决的就是编排层的问题。

6. 记忆系统(Memory)

跨交互维护上下文的机制:

  • 短期记忆:当前对话历史
  • 长期记忆:持久化的知识存储
  • 情景记忆:特定交互的记忆快照

五大架构模式

Compound AI Systems 的架构模式已经形成了相对成熟的分类。以下是五种最具代表性的模式:

模式一:RAG(检索增强生成)

使用率:约 70% 的企业 LLM 应用采用此模式

1
QueryRetrieverContext AugmentationLLMResponse

RAG 是最广泛采用的复合 AI 模式。它的核心思想是:不要让模型凭记忆回答,让它基于检索到的真实文档回答

RAG 已经演化出多个变体:

变体 特点 适用场景
Simple RAG 直接检索 + 生成 简单问答
RAG with Memory 跨交互保留检索历史 多轮对话
Agentic RAG 元代理协调多个文档代理 多源知识库
Hybrid RAG 结合非结构化检索与结构化数据库查询 企业级应用

模式二:LLM 级联(Cascade)

1
Query → 小模型 → [置信度检查] → 中模型 → [置信度检查] → 大模型

灵感来自 Stanford 的 FrugalGPT 研究(2023)。核心思想:在置信度足够高时停止在较小的模型,只有不确定时才升级到更大(更贵)的模型

实验结果令人震惊:级联路由可以在匹配 GPT-4 性能的同时,降低 98% 的成本

模式三:多智能体系统(Multi-Agent)

1
2
3
4
5
User QueryMeta-Agent ──→ Research Agent
├──→ Analysis Agent
└──→ Validation Agent

Synthesis → Response

多个专业化的智能体协作完成复杂任务。Gartner 报告显示,2024 年 Q1 到 2025 年 Q2,多智能体系统的咨询量增长了 1,445%

模式四:神经符号混合(Neuro-Symbolic)

将神经网络的"直觉"与符号推理引擎的"严谨"结合。

最典型的案例是 DeepMind 的 AlphaGeometry

  • 神经语言模型负责提出创造性的几何构造建议
  • 符号演绎引擎负责严格验证每一步证明
  • 两者交替工作,解决了 25/30 道奥林匹克几何问题(匹配人类金牌水平)
  • AlphaGeometry 2 进一步提升到 84% 的解决率,达到真正的金牌水平

关键洞察:单独的 LLM 或单独的符号引擎都无法达到这个成绩。是组合产生了突破

模式五:生成-过滤(Generate-and-Filter)

1
Problem → 生成 100 万个候选方案 → 过滤无效方案 → 聚类相似方案 → 评分排序 → 最优解

DeepMind 的 AlphaCode 2 采用此模式:在 Codeforces 编程竞赛中优于 85% 的人类选手(原始 AlphaCode 为 50%)。核心策略不是"生成一个完美答案",而是"生成大量候选,然后用工程手段筛选出最好的"。

与 Prompt/Context/Harness Engineering 的关系

读到这里,你可能会问:Compound Engineering 和我们之前讨论过的 Prompt Engineering、Context Engineering、Harness Engineering 是什么关系?

这是一个关键问题。这些概念不是同一个维度上的演进,而是两个正交的维度

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
                ┌─────────────────────────────────┐
│ 系统复杂度维度 │
│ (Compound Engineering) │
│ │
│ 单模型 → 多组件 → 多智能体 │
│ │
└──────────────┬──────────────────┘

┌────────────────────────┼────────────────────────┐
│ │ │
▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Prompt │ │ Context │ │ Harness │
│Engineering│ │Engineering│ │Engineering│
│ │ │ │ │ │
│ 怎么说话 │ │ 怎么备料 │ │ 怎么管厨房│
└──────────┘ └──────────┘ └──────────┘
交互精度维度
(PE → CE → HE 三级跃迁)

维度一:交互精度(PE → CE → HE)

这是一条纵向演进路径,解决的是"如何更好地与 AI 交互"的问题:

阶段 核心问题 比喻
Prompt Engineering 怎么措辞指令? 学会跟厨师说话
Context Engineering 怎么组装上下文? 学会给厨师备料
Harness Engineering 怎么管理整个任务生命周期? 学会管理整个厨房

维度二:系统复杂度(Compound Engineering)

这是一条横向扩展路径,解决的是"如何组合多个组件构建更强大的系统"的问题:

阶段 核心问题 比喻
单模型 一个模型解决所有问题 一个全科医生
多组件 模型 + 检索器 + 工具协作 多科室医院
多智能体 多个专业化智能体协作 医疗集团

两个维度的交叉

这两个维度是正交的,可以独立变化,也可以组合:

单模型 多组件(Compound) 多智能体
PE ChatGPT 对话 带 RAG 的问答 简单的多 Agent 编排
CE 精心设计的 Agent Loop 动态上下文管理的 RAG 系统 上下文隔离的多 Agent 系统
HE 带验证闭环的单 Agent 带自动优化的复合系统 带状态持久化的多 Agent 系统

核心洞察:PE/CE/HE 解决的是"与 AI 交互的精度"问题,Compound Engineering 解决的是"系统架构的复杂度"问题。最强大的 AI 系统,是在两个维度上都做到极致的系统

工具生态:Compound Engineering 的基础设施

Compound AI Systems 的工程化离不开成熟的工具链。以下是当前生态的全景:

编排框架

框架 定位 特点 典型用户
LangChain 端到端 AI 管道 100+ 集成,最适合原型制作 广泛采用
LlamaIndex RAG 优先工具包 优化数据检索和索引 RAG 场景
Haystack 生产导向框架 类型化可重用组件 Apple、Netflix、NVIDIA
DSPy “编程而非提示” 自动优化提示和权重 Stanford 研究

其中 DSPy 值得特别关注。它由 Stanford 开发,核心理念是:不要手写 prompt,而是用编程的方式定义任务,让框架自动优化 prompt 和模型权重。典型的优化成本仅约 $2 和 20 分钟。

模型路由与优化

工具 核心能力
FrugalGPT 级联路由,学习置信度阈值
OpenRouter 多模型路由基础设施
Cascade Routing 结合路由灵活性与级联效率(比基线改进 4%)

协议标准化

2025-2026 年,复合 AI 系统的协议标准化取得了重大进展:

协议 发起者 用途
MCP(Model Context Protocol) Anthropic 智能体-工具连接标准
ACP(Agent Communication Protocol) IBM 智能体间通信
A2A(Agent-to-Agent) Google 智能体间协作

Linux Foundation 的 Agentic AI Foundation 现在治理 MCP,标志着行业正在走向融合。这类似于 Web 时代 HTTP 协议的标准化——有了统一的协议,组件才能真正"即插即用"

可观测性

工具 特点
LangSmith 与 LangChain 深度集成,一行代码设置
Phoenix (Arize) 开源,基于 OpenTelemetry
Langfuse 完全开源替代方案
Datadog / New Relic 企业级平台扩展到 LLMOps

实际案例:Compound 的力量

案例一:AlphaGeometry(DeepMind)

  • 架构:神经符号混合系统
  • 组件:神经语言模型(直觉构造)+ 符号演绎引擎(严格证明)
  • 成绩:解决 25/30 道奥林匹克几何问题,匹配人类金牌
  • 关键:单独组件无法实现此成就,是组合产生了突破

案例二:FactSet(金融研究)

  • 问题:商业 LLM 单独在金融查询上仅达 55% 准确率
  • 方案:模块化为具有专用检索的复合系统
  • 结果:85% 准确率——提升 30 个百分点
  • 关键:不是换了更好的模型,而是设计了更好的系统

案例三:Microsoft Medprompt

  • 架构:GPT-4 + 最近邻搜索 + 多推理方法集成 + 动态少样本提示
  • 结果:在临床基准上超过专用医疗 AI 模型
  • 关键:通用模型 + 工程优化 > 专用模型

案例四:AlphaCode 2(DeepMind)

  • 架构:微调 Gemini Pro + 百万级候选生成 + 约束过滤 + 语义聚类 + 评分排序
  • 结果:在 Codeforces 上优于 85% 的人类竞赛者
  • 关键:不是"生成一个完美答案",而是"生成大量候选,用工程手段筛选最优"

挑战与局限

Compound AI Systems 不是银弹。它引入了一系列新的工程挑战:

设计复杂性

设计空间巨大,需要深度领域专业知识和大量实验。没有一刀切的答案——每个应用场景都需要定制化的组件组合和编排策略。

优化困难

许多组件不可微分(搜索引擎、代码解释器、数据库查询),传统的端到端梯度优化不适用。DSPy 等框架通过在自然语言"参数"上使用元学习来部分解决这个问题,但仍处于早期阶段。

调试与错误归因

当复合系统产生错误输出时,问题可能出在任何环节:检索差?LLM 误解上下文?工具返回错误数据?综合失败?传统的错误日志无法捕获这种多组件交互的复杂性。

延迟累积

每个组件都增加延迟,云服务间的往返、顺序依赖创建的关键路径、响应时间根据输入复杂性的急剧变化——这些都是单体模型不需要面对的问题。

测试挑战

不能依赖确定性的预期输出,需要语义评估而非精确匹配,组件隔离测试不保证集成成功。这类似于微服务架构中的集成测试难题,但更复杂——因为组件的输出是概率性的。

Compound Engineering 的最佳实践

基于当前的行业实践,以下是 Compound Engineering 的核心最佳实践:

实践一:从 RAG 开始,逐步复合

不要一开始就设计一个包含所有组件的复杂系统。从最简单的 RAG 架构开始,验证基本假设,然后根据实际需求逐步添加组件。

1
2
3
4
5
6
7
阶段 1:Simple RAG(检索 + 生成)
↓ 发现检索质量不够
阶段 2:Hybrid RAG(混合检索 + 重排序)
↓ 发现需要多源知识
阶段 3:Agentic RAG(多文档代理协作)
↓ 发现成本过高
阶段 4:级联路由 + Agentic RAG

实践二:投资检索质量

RAG 系统中,检索质量是整个系统质量的天花板。最佳实践包括:

  • 语义分块:在主题转移的自然边界分割文档,而非按固定长度
  • 混合检索:密集检索(向量相似性)+ 稀疏检索(BM25 关键词匹配)
  • 重排序层:第一阶段快速检索 Top-50,第二阶段用更复杂的模型精排 Top-5
  • 领域特定嵌入:通用嵌入模型往往不如领域微调的嵌入模型

实践三:建立反馈循环

从第一天就建立反馈循环:查询日志、检索评分、用户信号(点赞/点踩、重新生成请求)、源新鲜度跟踪。没有反馈循环的复合系统是盲飞的飞机

实践四:为可观测性而设计

传统监控不足以应对复合系统。需要:

  • 追踪每个组件的输入输出:不只是最终结果,而是每一步的中间状态
  • 语义质量评估:不是二元的通过/失败,而是连续的质量谱系
  • 执行路径可视化:不同查询可能走完全不同的执行路径

实践五:拥抱"集成税"

复合系统引入了集成税(Integration Tax)——更多的移动部件意味着更多的失败模式。赢家不是避免这个税,而是开发复合系统原生的运维实践

  • 组件级别的健康检查和降级策略
  • 端到端的集成测试(而非仅组件测试)
  • 故障注入和混沌工程

未来趋势

趋势一:从"模型竞赛"到"系统竞赛"

Gartner 预测:到 2026 年底,40% 的企业应用将嵌入 AI 智能体(2025 年不到 5%)。竞争的焦点正在从"谁的模型更大"转向"谁的系统设计更好"。

趋势二:混合 AI 架构成为主流

2026 年标志着"LLMs vs 知识系统"辩论的终结。获胜策略是组合:神经直觉(基础模型)+ 符号推理(规则引擎、知识图谱)+ 结构化数据(SQL 数据库、API)。

趋势三:领域专业化的复合堆栈

“全知智能体不存在”——成功来自行业特定的复合 AI 堆栈:

  • 法律:文档检索 + 条款分析 + 合规检查
  • 医疗:EHR 集成 + 临床指南 + 诊断推理
  • 金融:市场数据 + 监管合规 + 风险建模

趋势四:协议标准化加速

MCP、ACP、A2A 等协议的融合,正在让复合 AI 系统的组件实现"即插即用"。这类似于 Web 时代 REST API 的标准化——标准化是生态繁荣的前提

总结:一张图看懂 Compound Engineering 的位置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
AI 工程的两个维度
═══════════════════════════════════════════════════════

纵轴:交互精度(PE → CE → HE)

│ Harness Engineering ─── 管理整个任务生命周期
│ │
Context Engineering ─── 管理信息环境
│ │
│ Prompt Engineering ──── 管理指令措辞

└──────────────────────────────────────────────── 横轴
单模型 多组件 多智能体

←── 系统复杂度(Compound Engineering)──→

Compound Engineering 的核心洞察

  1. "越大越好"时代的终结:巧妙的系统工程可以超过任何单个模型的成就
  2. 工程胜过扩展:在高价值应用中,系统设计提供的提升远超模型改进
  3. 模型不再是产品,系统才是:从以模型为中心到以系统为中心的思维转变
  4. 集成税是真实的:复合系统的复杂性成本需要原生的运维实践来管理

如果说 PE → CE → HE 的三级跃迁 教会了我们"如何更好地与 AI 交互",那么 Compound Engineering 教会了我们"如何更好地组合 AI 组件"。最强大的 AI 系统,是在两个维度上都做到极致的系统。

参考资料