Compound Engineering:当 AI 工程从"模型调优"走向"系统组合"
2024 年之前,AI 工程的核心问题是"怎么让模型更好"。2024 年之后,核心问题变成了"怎么让多个组件协作得更好"。这个转变的名字叫 Compound AI Systems,而围绕它的工程学科叫 Compound Engineering。本文从"为什么单体模型不够"出发,系统梳理复合 AI 系统的架构模式、工程实践和与其他 Engineering 概念的关系。
一个类比秒懂 Compound Engineering
在讲技术之前,先用一个类比。
想象你要建一座现代化医院:
- 单体模型思维就像雇一个全科天才医生,让他一个人看所有病人——内科、外科、眼科、牙科全包。他确实很聪明,但一个人的精力和专业深度终究有限。
- Compound AI Systems 思维就像建一个多科室协作的医院系统:有分诊台(路由器)、各科室的专科医生(专用模型)、病历档案室(检索器)、化验室(外部工具)、会诊机制(多智能体协作)。每个组件做自己最擅长的事,通过协作协议连接在一起。
- Compound Engineering 就是设计和运营这座医院的系统工程学科——不是培养更聪明的医生,而是设计更好的协作流程、更高效的信息流转、更可靠的质量控制。
这就是 Compound Engineering 的本质:从"培养更强的个体"到"设计更好的系统"。
背景:为什么单体模型不够了?
"越大越好"的收益递减
2020-2023 年,AI 领域的主旋律是模型竞赛:参数量从 1750 亿(GPT-3)到 1.8 万亿(GPT-4),训练数据从 TB 级到 PB 级。每一代模型都比上一代"更聪明"。
但到了 2024 年,一个尴尬的事实浮出水面:模型能力的边际收益在递减,而工程优化的边际收益在递增。
Berkeley AI Research(BAIR)实验室的 Matei Zaharia 在 2024 年 2 月的开创性博客 The Shift from Models to Compound AI Systems 中指出:
工程一个从模型多次采样、测试每个样本等的系统,可能会将性能提高到 80%,而额外的训练计算带来的收益微乎其微。
换句话说:与其花 10 倍的算力训练一个稍微好一点的模型,不如花 1/10 的成本设计一个更聪明的系统。
三个催生 Compound AI Systems 的现实问题
问题一:幻觉无法靠模型本身解决。 无论模型多大,它都可能"一本正经地胡说八道"。但如果在模型前面加一个检索器(Retriever),让它基于真实文档回答问题,幻觉率可以大幅下降。这不是模型能力的提升,而是系统设计的胜利。
问题二:知识时效性的结构性缺陷。 模型的知识截止于训练数据。但如果系统能在运行时检索最新信息(RAG),这个问题就被绕过了——不需要重新训练模型,只需要更新知识库。
问题三:成本与质量的不可能三角。 用 GPT-4 回答所有问题太贵,用 GPT-3.5 回答所有问题质量不够。但如果设计一个级联路由系统——简单问题用小模型,复杂问题才升级到大模型——就能在保持质量的同时降低 98% 的成本(Stanford 的 FrugalGPT 研究)。
这三个问题的共同点是:解决方案不在模型内部,而在模型外部的系统设计中。
核心定义:什么是 Compound AI Systems?
定义
Compound AI System(复合 AI 系统) 是使用多个交互组件——包括多次模型调用、检索器、外部工具和专用模型——来协作解决 AI 任务的系统。
这个定义由 Matei Zaharia(Databricks 联合创始人兼 CTO、UC Berkeley EECS 副教授、Apache Spark 创建者)及其团队在 2024 年系统提出。它与传统的"单体模型"(Monolithic Model)形成鲜明对比:
| 维度 | 单体模型 | 复合 AI 系统 |
|---|---|---|
| 架构 | 单一模型端到端 | 多组件协作 |
| 性能上限 | 受限于模型能力 | 通过组件组合突破上限 |
| 成本 | 固定高成本 | 按任务复杂度动态调整 |
| 可靠性 | 幻觉难以避免 | 通过检索和验证大幅降低 |
| 知识更新 | 需要重新训练 | 仅需更新知识库或组件 |
| 可解释性 | 黑盒 | 每个组件可独立审计 |
| 韧性 | 单点故障 | 分布式故障模式,优雅降级 |
一句话概括
单体模型是"一个天才解决所有问题",复合 AI 系统是"一个团队各司其职"。
六大核心组件
一个典型的 Compound AI System 由以下六大组件构成:
1 | |
1. 基础模型(LLMs)
中央推理引擎,负责理解上下文、生成响应、协调其他组件。但在复合系统中,LLM 不再是"唯一的大脑",而是"团队中的一员"——它擅长推理和生成,但把检索、计算、验证等任务委托给更合适的组件。
2. 检索器(Retriever)
从外部知识库获取相关信息,是 RAG 架构的核心。检索器有两个关键维度:
- 方法维度:关键词检索(BM25)、语义检索(向量嵌入)、混合检索
- 阶段维度:初始检索(广泛搜索 Top-50)→ 重排序(精确过滤 Top-5)
3. 外部工具(Tools/API)
代码执行环境、Web 搜索引擎、数据库查询、计算器、领域特定 API 等。工具赋予了 AI 系统与真实世界交互的能力——模型不再只是"想",还能"做"。
4. 专用模型(Specialist Models)
针对特定任务优化的小型模型:嵌入模型(语义搜索)、分类模型(路由决策)、评分模型(质量评估)。它们比通用大模型更快、更便宜、更精准。
5. 编排层(Orchestration)
复合系统的"控制平面",负责:将复杂工作流分解为子任务、将任务委托给合适的组件、管理组件间的数据流、处理错误恢复和重试。LangChain、LlamaIndex、DSPy 等框架主要解决的就是编排层的问题。
6. 记忆系统(Memory)
跨交互维护上下文的机制:
- 短期记忆:当前对话历史
- 长期记忆:持久化的知识存储
- 情景记忆:特定交互的记忆快照
五大架构模式
Compound AI Systems 的架构模式已经形成了相对成熟的分类。以下是五种最具代表性的模式:
模式一:RAG(检索增强生成)
使用率:约 70% 的企业 LLM 应用采用此模式
1 | |
RAG 是最广泛采用的复合 AI 模式。它的核心思想是:不要让模型凭记忆回答,让它基于检索到的真实文档回答。
RAG 已经演化出多个变体:
| 变体 | 特点 | 适用场景 |
|---|---|---|
| Simple RAG | 直接检索 + 生成 | 简单问答 |
| RAG with Memory | 跨交互保留检索历史 | 多轮对话 |
| Agentic RAG | 元代理协调多个文档代理 | 多源知识库 |
| Hybrid RAG | 结合非结构化检索与结构化数据库查询 | 企业级应用 |
模式二:LLM 级联(Cascade)
1 | |
灵感来自 Stanford 的 FrugalGPT 研究(2023)。核心思想:在置信度足够高时停止在较小的模型,只有不确定时才升级到更大(更贵)的模型。
实验结果令人震惊:级联路由可以在匹配 GPT-4 性能的同时,降低 98% 的成本。
模式三:多智能体系统(Multi-Agent)
1 | |
多个专业化的智能体协作完成复杂任务。Gartner 报告显示,2024 年 Q1 到 2025 年 Q2,多智能体系统的咨询量增长了 1,445%。
模式四:神经符号混合(Neuro-Symbolic)
将神经网络的"直觉"与符号推理引擎的"严谨"结合。
最典型的案例是 DeepMind 的 AlphaGeometry:
- 神经语言模型负责提出创造性的几何构造建议
- 符号演绎引擎负责严格验证每一步证明
- 两者交替工作,解决了 25/30 道奥林匹克几何问题(匹配人类金牌水平)
- AlphaGeometry 2 进一步提升到 84% 的解决率,达到真正的金牌水平
关键洞察:单独的 LLM 或单独的符号引擎都无法达到这个成绩。是组合产生了突破。
模式五:生成-过滤(Generate-and-Filter)
1 | |
DeepMind 的 AlphaCode 2 采用此模式:在 Codeforces 编程竞赛中优于 85% 的人类选手(原始 AlphaCode 为 50%)。核心策略不是"生成一个完美答案",而是"生成大量候选,然后用工程手段筛选出最好的"。
与 Prompt/Context/Harness Engineering 的关系
读到这里,你可能会问:Compound Engineering 和我们之前讨论过的 Prompt Engineering、Context Engineering、Harness Engineering 是什么关系?
这是一个关键问题。这些概念不是同一个维度上的演进,而是两个正交的维度:
1 | |
维度一:交互精度(PE → CE → HE)
这是一条纵向演进路径,解决的是"如何更好地与 AI 交互"的问题:
| 阶段 | 核心问题 | 比喻 |
|---|---|---|
| Prompt Engineering | 怎么措辞指令? | 学会跟厨师说话 |
| Context Engineering | 怎么组装上下文? | 学会给厨师备料 |
| Harness Engineering | 怎么管理整个任务生命周期? | 学会管理整个厨房 |
维度二:系统复杂度(Compound Engineering)
这是一条横向扩展路径,解决的是"如何组合多个组件构建更强大的系统"的问题:
| 阶段 | 核心问题 | 比喻 |
|---|---|---|
| 单模型 | 一个模型解决所有问题 | 一个全科医生 |
| 多组件 | 模型 + 检索器 + 工具协作 | 多科室医院 |
| 多智能体 | 多个专业化智能体协作 | 医疗集团 |
两个维度的交叉
这两个维度是正交的,可以独立变化,也可以组合:
| 单模型 | 多组件(Compound) | 多智能体 | |
|---|---|---|---|
| PE | ChatGPT 对话 | 带 RAG 的问答 | 简单的多 Agent 编排 |
| CE | 精心设计的 Agent Loop | 动态上下文管理的 RAG 系统 | 上下文隔离的多 Agent 系统 |
| HE | 带验证闭环的单 Agent | 带自动优化的复合系统 | 带状态持久化的多 Agent 系统 |
核心洞察:PE/CE/HE 解决的是"与 AI 交互的精度"问题,Compound Engineering 解决的是"系统架构的复杂度"问题。最强大的 AI 系统,是在两个维度上都做到极致的系统。
工具生态:Compound Engineering 的基础设施
Compound AI Systems 的工程化离不开成熟的工具链。以下是当前生态的全景:
编排框架
| 框架 | 定位 | 特点 | 典型用户 |
|---|---|---|---|
| LangChain | 端到端 AI 管道 | 100+ 集成,最适合原型制作 | 广泛采用 |
| LlamaIndex | RAG 优先工具包 | 优化数据检索和索引 | RAG 场景 |
| Haystack | 生产导向框架 | 类型化可重用组件 | Apple、Netflix、NVIDIA |
| DSPy | “编程而非提示” | 自动优化提示和权重 | Stanford 研究 |
其中 DSPy 值得特别关注。它由 Stanford 开发,核心理念是:不要手写 prompt,而是用编程的方式定义任务,让框架自动优化 prompt 和模型权重。典型的优化成本仅约 $2 和 20 分钟。
模型路由与优化
| 工具 | 核心能力 |
|---|---|
| FrugalGPT | 级联路由,学习置信度阈值 |
| OpenRouter | 多模型路由基础设施 |
| Cascade Routing | 结合路由灵活性与级联效率(比基线改进 4%) |
协议标准化
2025-2026 年,复合 AI 系统的协议标准化取得了重大进展:
| 协议 | 发起者 | 用途 |
|---|---|---|
| MCP(Model Context Protocol) | Anthropic | 智能体-工具连接标准 |
| ACP(Agent Communication Protocol) | IBM | 智能体间通信 |
| A2A(Agent-to-Agent) | 智能体间协作 |
Linux Foundation 的 Agentic AI Foundation 现在治理 MCP,标志着行业正在走向融合。这类似于 Web 时代 HTTP 协议的标准化——有了统一的协议,组件才能真正"即插即用"。
可观测性
| 工具 | 特点 |
|---|---|
| LangSmith | 与 LangChain 深度集成,一行代码设置 |
| Phoenix (Arize) | 开源,基于 OpenTelemetry |
| Langfuse | 完全开源替代方案 |
| Datadog / New Relic | 企业级平台扩展到 LLMOps |
实际案例:Compound 的力量
案例一:AlphaGeometry(DeepMind)
- 架构:神经符号混合系统
- 组件:神经语言模型(直觉构造)+ 符号演绎引擎(严格证明)
- 成绩:解决 25/30 道奥林匹克几何问题,匹配人类金牌
- 关键:单独组件无法实现此成就,是组合产生了突破
案例二:FactSet(金融研究)
- 问题:商业 LLM 单独在金融查询上仅达 55% 准确率
- 方案:模块化为具有专用检索的复合系统
- 结果:85% 准确率——提升 30 个百分点
- 关键:不是换了更好的模型,而是设计了更好的系统
案例三:Microsoft Medprompt
- 架构:GPT-4 + 最近邻搜索 + 多推理方法集成 + 动态少样本提示
- 结果:在临床基准上超过专用医疗 AI 模型
- 关键:通用模型 + 工程优化 > 专用模型
案例四:AlphaCode 2(DeepMind)
- 架构:微调 Gemini Pro + 百万级候选生成 + 约束过滤 + 语义聚类 + 评分排序
- 结果:在 Codeforces 上优于 85% 的人类竞赛者
- 关键:不是"生成一个完美答案",而是"生成大量候选,用工程手段筛选最优"
挑战与局限
Compound AI Systems 不是银弹。它引入了一系列新的工程挑战:
设计复杂性
设计空间巨大,需要深度领域专业知识和大量实验。没有一刀切的答案——每个应用场景都需要定制化的组件组合和编排策略。
优化困难
许多组件不可微分(搜索引擎、代码解释器、数据库查询),传统的端到端梯度优化不适用。DSPy 等框架通过在自然语言"参数"上使用元学习来部分解决这个问题,但仍处于早期阶段。
调试与错误归因
当复合系统产生错误输出时,问题可能出在任何环节:检索差?LLM 误解上下文?工具返回错误数据?综合失败?传统的错误日志无法捕获这种多组件交互的复杂性。
延迟累积
每个组件都增加延迟,云服务间的往返、顺序依赖创建的关键路径、响应时间根据输入复杂性的急剧变化——这些都是单体模型不需要面对的问题。
测试挑战
不能依赖确定性的预期输出,需要语义评估而非精确匹配,组件隔离测试不保证集成成功。这类似于微服务架构中的集成测试难题,但更复杂——因为组件的输出是概率性的。
Compound Engineering 的最佳实践
基于当前的行业实践,以下是 Compound Engineering 的核心最佳实践:
实践一:从 RAG 开始,逐步复合
不要一开始就设计一个包含所有组件的复杂系统。从最简单的 RAG 架构开始,验证基本假设,然后根据实际需求逐步添加组件。
1 | |
实践二:投资检索质量
RAG 系统中,检索质量是整个系统质量的天花板。最佳实践包括:
- 语义分块:在主题转移的自然边界分割文档,而非按固定长度
- 混合检索:密集检索(向量相似性)+ 稀疏检索(BM25 关键词匹配)
- 重排序层:第一阶段快速检索 Top-50,第二阶段用更复杂的模型精排 Top-5
- 领域特定嵌入:通用嵌入模型往往不如领域微调的嵌入模型
实践三:建立反馈循环
从第一天就建立反馈循环:查询日志、检索评分、用户信号(点赞/点踩、重新生成请求)、源新鲜度跟踪。没有反馈循环的复合系统是盲飞的飞机。
实践四:为可观测性而设计
传统监控不足以应对复合系统。需要:
- 追踪每个组件的输入输出:不只是最终结果,而是每一步的中间状态
- 语义质量评估:不是二元的通过/失败,而是连续的质量谱系
- 执行路径可视化:不同查询可能走完全不同的执行路径
实践五:拥抱"集成税"
复合系统引入了集成税(Integration Tax)——更多的移动部件意味着更多的失败模式。赢家不是避免这个税,而是开发复合系统原生的运维实践:
- 组件级别的健康检查和降级策略
- 端到端的集成测试(而非仅组件测试)
- 故障注入和混沌工程
未来趋势
趋势一:从"模型竞赛"到"系统竞赛"
Gartner 预测:到 2026 年底,40% 的企业应用将嵌入 AI 智能体(2025 年不到 5%)。竞争的焦点正在从"谁的模型更大"转向"谁的系统设计更好"。
趋势二:混合 AI 架构成为主流
2026 年标志着"LLMs vs 知识系统"辩论的终结。获胜策略是组合:神经直觉(基础模型)+ 符号推理(规则引擎、知识图谱)+ 结构化数据(SQL 数据库、API)。
趋势三:领域专业化的复合堆栈
“全知智能体不存在”——成功来自行业特定的复合 AI 堆栈:
- 法律:文档检索 + 条款分析 + 合规检查
- 医疗:EHR 集成 + 临床指南 + 诊断推理
- 金融:市场数据 + 监管合规 + 风险建模
趋势四:协议标准化加速
MCP、ACP、A2A 等协议的融合,正在让复合 AI 系统的组件实现"即插即用"。这类似于 Web 时代 REST API 的标准化——标准化是生态繁荣的前提。
总结:一张图看懂 Compound Engineering 的位置
1 | |
Compound Engineering 的核心洞察:
- "越大越好"时代的终结:巧妙的系统工程可以超过任何单个模型的成就
- 工程胜过扩展:在高价值应用中,系统设计提供的提升远超模型改进
- 模型不再是产品,系统才是:从以模型为中心到以系统为中心的思维转变
- 集成税是真实的:复合系统的复杂性成本需要原生的运维实践来管理
如果说 PE → CE → HE 的三级跃迁 教会了我们"如何更好地与 AI 交互",那么 Compound Engineering 教会了我们"如何更好地组合 AI 组件"。最强大的 AI 系统,是在两个维度上都做到极致的系统。
参考资料
- The Shift from Models to Compound AI Systems - BAIR Blog (2024)
- A Blueprint Architecture of Compound AI Systems for Enterprise - arXiv (2024)
- What are Compound AI Systems? - Databricks
- Compound AI Systems: Architecture Pattern Reshaping Modern AI - Zylos Research (2026)
- Context Engineering for Agents - LangChain Blog
- Harness Engineering - Martin Fowler (2026)




