Agent 全景指南：从必要性、范式演化到高可用落地

导语

Agent 在过去三年从概念走向生产，但围绕它的讨论一直分散在三个不同的层面：什么是 Agent、Agent 形态如何演化、以及如何把 Agent 真正构建成可用产品。这三个问题彼此独立又互相支撑——不理解定义就难以分辨技术争议，不理解演化就把握不到当前最佳实践，不理解落地就停留在 Demo 阶段。

本文把这三层一次梳理清楚：第 1-2 章解决"是什么、为什么"，第 3-4 章解决"演化到了哪里、每个模块发生了什么变化"，第 5-6 章解决"实际怎么构建一个高可用 Agent"。

第 1 章 Agent 概念与争议

1.1 Agent 的本义：代理 vs 智能体

Agent 这个词在英文语境下的原义是"代理人"，但也带有"代理"的含义。国内学术界、工业界很多翻译为"智能体"，强调其"智能化"和"自主决策"能力；另一派则倾向译为"代理"，更贴合英文中"代理人做某件事情"的本意。

事实上 Agent 是一个早于 LLM 就有的技术名词。云计算领域，弹性计算服务器上安装的 Agent 是一种服务器代理程序；强化学习领域，Agent 指可以从环境学习、感知、更新的策略模块。这些 Agent 未必由大模型驱动。因此现在常用 AI Agent 或 LLM Agent 来与传统 Agent 程序做区分。

1.2 经典定义

OpenAI 的 Lilian Weng 给出的定义是：Agent = LLM + Planning + Memory + Tool Use。复旦大学 NLP 团队则用大脑、感知、行动三个组件来描述。无论哪种定义，核心不变：Agent 是一个能规划、有记忆、能使用工具的代理，模拟的是人处理任务的完整心智过程，而不是某段固定的代码逻辑。

1.3 三大概念争议

围绕"什么算 Agent"的争议主要集中在三个方向：

智能体 vs 代理：Agent 是否必须由大模型驱动？满足"代理"能力的程序、代码块是否可以叫 Agent？
自主规划 vs 工作流：Agent 是否必须具备自主规划能力？预定义好的 Workflow 是否可以被叫做 Agent？
函数调用 vs 角色扮演：Agent 是否必须实现函数调用？是否必须有"人设"或"拟人化"属性？

随着技术发展，Workflow 与 Agent 的边界已经模糊。Agentic Workflow（大模型自主规划的 Workflow）、Workflow 框架内嵌 LLM 节点、Manus/OpenManus 这种"外层 Workflow + 内层 LLM 自主规划"的双层结构都在并存。Workflow 和 Agent 已经是相互依赖、相辅相成的关系。

1.4 agenticness 光谱与广狭义 Agent

吴恩达在一次采访中提出了"agenticness 是一个光谱"的观点——不同系统具有不同程度的 agenticness，从几乎无自主性到高度自主都是合理的存在。争论"这个系统到底是不是 Agent"本身价值不大。

为便于讨论，可以把 Agent 定义分成两种：

狭义的 Agent：理想状态下的"智能体"，能听懂自然语言指令，自主规划、分解、执行、反思、决策，无需人为干预内部细节。
广义的 Agent：侧重"自动化的任务代理"，不纠结是否以大模型为基础，可以通过大模型、小模型、硬编码、规则引擎等多种技术混合，以帮助人自动化完成任务为目标。

广义 Agent 包含狭义 Agent。目前许多企业研发的 Agent 平台都在广义定义的范畴里——狭义 Agent 仍是一种技术理想主义，构建简单（任务全盘交给大模型）但效果稳定性差，落地问题很多。

第 2 章为什么一定要做 Agent

一个常见的质疑是：同样的业务场景，传统硬编码或低代码平台一样能实现，而且更快、更稳定、交互更好，为什么还要上 Agent？只看 Agent 当前的缺点（响应慢、有幻觉、纯文本交互不友好），这个质疑确实成立。但 Agent 带来的增量价值并不在传统流程的"复刻"上，而在以下四个维度。

2.1 降低应用开发门槛：让"能描述需求的人"成为开发者

传统方式下，实现一个功能需要会写代码，或者至少会用低代码平台做节点编排和参数映射。Agent 改变了规则：只需要描述要什么，不需要描述怎么做。

类比来看：剪映让不会剪辑的人能剪视频，美图秀秀让不会 Photoshop 的人能修图。Agent 要做的类似——让不会写代码的人能开发应用。这就是 GenAPP（生成式应用）的核心理念：通过自然语言描述和极简配置，最低成本地实现一个能解决复杂问题的应用。

2.2 简化流程复杂度：大模型是天然的"胶水"

传统流程编排有一个典型痛点：上一步 API 的返回结果和下一步 API 的输入参数之间，必须严丝合缝地映射好——类型要匹配、字段要对齐、转换要完备，任何环节出问题就是 bug。

Agent 改变了这一点。大模型像胶水一样，天然能理解"A 的输出"和"B 的输入"之间的语义关系，自动完成参数转换。流程不需要做到 100% 完备——做到 80%，剩下的 20% 让模型的理解能力去弥补。

在算法层面这一点更明显。传统方式下，路由分发需要一个单独训练的小模型，意图识别又需要一个，中间每个需要"判断"的节点都可能需要一个小模型，每个都要收集数据、打标签、训练、部署。Agent 时代，一个 prompt 就能搞定这些，大模型自己就能拆解问题、判断路由、完成识别。

2.3 交互方式的多样性：Agent ≠ 对话机器人

一个常见误区：Agent 只能是对话形态的纯文本交互。但 Agent 的定义里根本没有限定交互方式。

Anthropic 发布的电脑操作 Agent，输入是自然语言，输出是一系列鼠标点击和键盘操作。微软的供应链分析 Agent，输入是表单选项，输出是图表和趋势预测。Agent 的本质是代理执行，不是对话。 自然语言只是人和模型之间的通信协议，不是 Agent 对外呈现的交互形态。

2.4 协同完成复杂任务：从单体到 Multi-Agent 社会

传统流程是封闭的——两个流程要协作，需要再写第三个流程来编排它们。Multi-Agent 则天然支持协作：多个 Agent 可以接力处理同一工单中的多个问题，可以像专家会诊一样讨论疑难杂症，可以竞争输出多个方案再由决策 Agent 或人来拍板。这种"智能体编排智能体"的能力，是传统流程编排无法做到的。

第 3 章 Agent 技术范式的四阶段演化

回顾 2023~2026 这三年，Agent 的技术形态经历了四个显著特征的阶段。这四个阶段并非完全的替代关系，而是并存且互补的。

3.1 阶段一：早期 Agent（被动式 ReAct，2023）

2023 年是 Agent 概念启蒙期，代表性理论源自 Lilian Weng 的《LLM Powered Autonomous Agents》，定义了 LLM + Planning + Tools + Memory 的基本架构。

这个阶段的 Agent 本质是被动式响应，基于初步的 ReAct 架构（Reasoning + Acting），遵循"Reasoning → Observe → Response"的单步链条。交互形态类似增强版 Chatbot，处于"一问一答"或"指令-执行"状态，严重依赖用户的明确指令，基本只能完成单点、短链路的小任务，缺乏长期规划能力，任务复杂度超出上下文窗口时极易中断。

3.2 阶段二：工作流 Agent（结构化与可控性，2024）

2024 年，随着 to B 业务对稳定性要求的提升，纯靠 ReAct 解决复杂问题变得不现实，Agentic Workflow 成为主流。核心理念是：用工程化的约束来弥补模型的不确定性。

架构特征是：整个大框架是固定的 Workflow，关键节点嵌入 LLM；或者 LLM 作为中枢调用预定义好的子 Workflow。这种方式牺牲了一定灵活性，但换来了极高的可控性和可解释性。对于非长尾、非极度复杂的场景，Workflow Agent 至今仍是性价比最高、落地最稳定的方案。

3.3 阶段三：自主 Agent（复杂规划与长程任务，2025）

2025 年是 Agent 迈向"自主性"的关键转折点。以 Manus、Claude Code、Codex 等为代表，标志着 Agent 能力的再一次质变。

这个阶段的 Agent 不再满足于快速调用几个工具后给出结论，而是具备了复杂的 Planning 能力。面对模糊或宏大的需求，能自行拆解任务、规划路径、调用工具并多轮迭代。只要清晰描述需求并设定好开发规范，Agent 可以连续运行很长时间；配合轻量级 Harness 或自我校验机制，在长程运行中不断修正错误。这是从"辅助者"向"执行者"角色的根本转变。

3.4 阶段四：自进化 Agent（持续学习与自我升级，2026）

2026 年，Hermes Agent 等新一代框架兴起，Agent 可以自我沉淀 Skill、自我沉淀知识库，甚至通过 RL 训练提升模型能力，进入"自进化"阶段。

核心本质是解决"静态模型"与"动态世界"之间的矛盾。Agent 在完成任务的过程中沉淀经验，通过记忆模块、反馈循环和自我反思机制将教训转化为新知识或策略。最终目标是实现"越用越好用"，自动优化提示词、工具选择策略，甚至微调局部模型参数。Agent 因此从"一次性消耗品"变成了"可积累资产"。

第 4 章六个核心模块的范式变化

从宏观架构上看，今天的 Agent 依然由 Prompt、Planning、Memory、Tools、Workflow、Environment 等经典模块组成。但每个模块背后的运行逻辑、数据流转方式和工程实现范式都发生了深刻变化。

4.1 Prompt：单体 → 渐进式文件加载

早期构建 Agent 时，绝大部分精力都耗费在撰写 Prompt 上。一个任务创建一个 Agent，每个 Agent 对应一段精心调试的独立 System Prompt，维护成本极高。

当前演进方向是解耦：System Prompt 保持极度稳定，只保留最底层的系统级指令和基本行为规范；大量具体的任务要求、领域知识等动态内容被拆解并存储到外部文件系统，通过渐进式披露的方式加载。具体落地有两类：

Skill 层面沉淀：执行某项具体任务的方法论、步骤要求沉淀为独立的 Markdown 文件（如 SKILL.md），Agent 在执行时动态加载。
配置文件存储：人设定义、用户偏好等通用规范存储在 USER.md、SOUL.md 或 AGENTS.md 等配置文件中。

4.2 Planning：思维链 → 复杂长程任务拆解与推理

早期的 Planning 主要依赖模型原生的 CoT 能力，通过"Let’s think step by step"引导线性串行推导。随着模型推理能力的显著增强，Planning 机制发生了质的飞跃：

复杂问题的结构化分解：主动将宏大目标拆解为多个可执行的子任务，生成结构化的 Todo List。
多步协同与长程推理：按步骤有序执行，并在执行过程中动态调整计划。
子 Agent 的动态构建：根据子任务需求动态实例化或调用特定的子 Agent。

驱动这一演化的核心是底层基座模型推理能力的升级。Planning 从简单的"提示词技巧"演变成了"智能决策中枢"。

4.3 Memory：检索增强 → 文件系统化的沉淀与检索

记忆模块在两个维度上都发生了显著演变。

短期记忆层面，核心挑战从"存储"转向"管理"与"压缩"：阈值控制（基于固定 token 数或动态语义密度阈值触发压缩）、结构化摘要（对中间过程的对话进行 Summary 提炼，保留头尾关键信息）、重点提取（从冗长的对话流中提取关键事实或状态变化）。

长期记忆层面，逐步从"向量数据库主导"向"文件系统主导"回归：事项型记忆（用户偏好、历史行为等动态事实，使用文件系统记录如 MEMORY.md）；知识型记忆（在 LLM-Wiki、GBrain 等理念普及下，本地文件系统 + Markdown 知识库逐渐补充传统 RAG 方案；企业级场景则采用文件系统 + QMD/SQLite 的轻量向量化检索混合方案）。

Memory 的演进本质是从纯向量文本检索走向"文件系统化沉淀 + 向量检索混合管理"。

4.4 Tools：Function Call → CLI / Script

这是 Agent 范式中变化最大的一个部分。早期的 Function Call 模式需要将系统能力封装为标准 API 并注册为可调用函数，开发和维护成本极高。真正的范式转移发生在两个维度：

CLI 命令行原生化：grep、cat 等 Linux 命令是模型预训练数据中的"先天知识"，无需额外定义复杂 API Schema；面对未见过的第三方 CLI 工具，模型可通过 --help 在运行时自主理解参数用法；节省了巨大的 token 空间和调试成本。

Script 脚本化：具体的工具逻辑被封装为独立脚本文件，既可直接执行本地命令，也可内部封装对远程 API 的调用；复杂的 API 鉴权、参数拼接等细节隐藏在脚本内部，Agent 只需关注"调用哪个脚本"和"传入什么参数"。这也是为什么安装一个 Skill 往往就能赋予 Agent 处理复杂任务的能力。

Tools 的演进核心是从"人为适配模型"转向"利用模型原生能力"。

4.5 Workflow：刚性流程编排 → 动态封装与混合架构

Workflow 的形态正在从"刚性流程编排"转向"动态 Skill 封装与混合架构"：

逻辑内聚化：原本分散在 Workflow 引擎中的步骤定义、约束条件、核心判断逻辑，现在直接写入 Skill 的 Markdown 描述文件。
执行脚本化：对需要精确控制的环节，通过 Skill 关联的 Script 脚本进行代码级编排。

落地实践中最佳策略是混合架构：将成熟的标准化子任务封装为 Skills，利用其灵活性和易用性；将关键的、对稳定性要求极高的主干流程保留为 Workflow 作为兜底。这种"Skill 为主，Workflow 为辅"的策略，既利用了新技术的红利，又保留了必要的确定性。

4.6 Environment：无状态 → 运行时环境

早期的 Agent 对工具调用几乎不需要运行环境。但随着文件系统操作、代码执行等能力的引入，Agent 必须拥有专属的 Workspace。根据安全要求的不同，Runtime 环境分为两种形态：

本地个人电脑：便利性和灵活性极高，可操作本地文件系统和应用，但缺乏严格隔离机制，需要引入用户确认机制或权限控制。
沙箱环境：企业级生产环境的主流选择，通过 Docker/Kubernetes 等容器化技术构建隔离沙箱，提供必要的安全边界和资源管控。

4.7 演进对照表

模块	早期范式	当前范式
Prompt	单体大 System Prompt	解耦 + 渐进式加载文件系统
Planning	线性 CoT 思维链	复杂长程任务拆解与推理
Memory	前置向量检索	文件系统化 + 向量检索混合
Tools	高成本 API 封装	原生 CLI + Script 脚本化
Workflow	刚性外部编排	Skill 封装 + 混合架构
Environment	无状态调用	有状态隔离 Runtime

第 5 章高可用 Agent 落地的四大挑战与对策

理解了 Agent 是什么、为什么需要它、形态如何演化之后，真正的难题是把它构建成业务上稳定可用的产品。Agent 落地过程中的问题大致可以分为四类挑战。

5.1 四大挑战概览

挑战一：运行效果不稳定。 提示词看似简单，但实操过的话会发现写出一套稳定运行的提示词并不容易——过短则主体不明、表意不清；过长则注意力失焦、重点遗忘；甚至提示词中存在自己都没意识到的冲突和矛盾，导致模型运行不稳定。
挑战二：规划如何平衡。 大模型自主驱动的模式很容易不可控；如果通过 Workflow 的方式去做规划，又需要投入大量人力成本去编排，导致 Agent 构建成本越来越高。
挑战三：领域信息集成。 大家用的模型大多是通用基座大模型，基本上不具备领域垂类的知识信息，对领域特定词汇、知识、流程的理解上都会很困难。
挑战四：响应速度。 大参数模型运行 Agent 效果还不错但速度非常慢，尤其是推理模型；小参数模型速度快但效果不稳定。运行性能和推理效果呈反比关系。

5.2 提示词调优：模板 → AI 辅助生成

提示词不稳定问题的解法经历了两个阶段。

第一阶段：提供提示词模板。 经过大量调试、测试的模板比每个人直接写要更容易稳定。但问题是大家过度套用模板，不需要写的内容也生搬硬套，或者不知道选择哪套模板。

第二阶段：AI 辅助提示词生成和调优。 把提示词模板给到 AI，结合需求先写一版，由人来确认逻辑是否正确，有问题及时调整。因为"最懂大模型的是大模型自己"，可以让模型检测冲突矛盾、指出逻辑问题，持续迭代优化。

5.3 规划层权衡：Workflow / LLM 自主 / 混合架构

规划层的核心矛盾：LLM 自主规划智能化越高、可控性越低；Workflow 编排可控性越高、智能化越低。两类场景适用不同方案。

适合 Workflow 的场景：可控性高但智能化要求低的标准化、重复执行场景。例如订单财务类——查询某个订单有没有过期、计算是否需要退订部分费用——这些都是标准化的，如果让大模型深度参与逻辑判断和数学计算，很容易出现幻觉。再比如排班类场景，需要定时提醒，如果出现幻觉遗漏了某些人，就会很麻烦。

适合大模型自主规划的场景：智能化要求较高的探索化、问题复杂场景。例如云数据库的实例异常诊断——客户一般只会描述"我的数据库查询非常缓慢"，但可能的原因非常多：会话连接数异常、QPS 异常、内存问题、慢 SQL 等等。很难通过一个大而全的 Workflow 承载所有可能性。这类场景适合用大模型自主决策——结合提示词给出几个大的排查方向，让模型通过工具 API 自主查询、诊断、决策。Agentic RAG 也适合这类场景：在没有高质量知识库但能找到官方文档的情况下，让大模型自主生成搜索 query → 搜索 → 检查反思 → 调整 query 重新搜索。

中间状态：LLM 自主规划 + Workflow 结合。以"邮箱无法收发信诊断"场景为例：排查邮箱账号状态、域名状态、报错这些中间过程可以编排成稳定可控的 Workflow，但客户输入形式多样（有的给邮箱账号、有的给域名、有的给报错），所以在 Workflow 之外再用一个大模型来动态决策调用哪个 Workflow，实现"内部稳定可控 + 外部自主灵活"。这种"内可控、外自主"是基于 Multi-Agent 实现的，也可以反过来——“外可控、内自主”，如 Manus/OpenManus 就是外面有一个大的 Workflow 框架，内部每个节点由 LLM 自主规划。

Workflow 三种演化模式

Workflow 实现层面经历过三种模式，目前并存：

模式一：自然语言编排 + LLM 驱动按步执行。 用户用自然语言描述流程 → AI 生成流程图（DAG）→ 大模型按步执行。优点是构建成本低，允许"不完备"的流程图；缺点是运行速度慢，每个环节都要大模型决策，且只能从头执行到尾。
模式二：代码/大模型混编 + 规则驱动按步执行。 不再让大模型驱动所有节点，改用规则引擎驱动。中间节点除必须用大模型的情况外，都用代码、脚本、规则实现，类似离线预编译。运行速度变快，但规则引擎驱动的流程图必须"完备"——节点间参数传递必须准确无误，构建门槛变高。
模式三：自然语言编排 + 大模型自主规划执行。 自然语言描述流程、AI 生成"不完备"流程图，但运行时不是让大模型从头走到尾，而是把流程图作为参考信息给大模型做类似 RAG 的参考规划。这种模式比前两种更加灵活智能。

5.4 领域数据集成

在通用基座大模型中集成领域数据，主要有三个方法：

Prompt 中动态领域要求：根据服务场景匹配度，在 Prompt 加载时动态引入领域先验知识，通过类似 RAG 的方式根据场景动态搜索和匹配加载领域知识。
引入外部技能：通过调用领域工具、知识库、文档等，让 LLM 有更多方式自主获取领域数据。
领域大模型训练：在前两种方法搞不定的情况下，通过训练领域大模型来注入领域知识——构造领域数据源（知识库、文档、工具 API），经过汇总清洗构造成语料（单步工具调用、多步工具调用、反问澄清、Multi-Agent 调用），然后进行模型训练和调优。

5.5 响应速度优化

代码参数预转换：尽量减少 Agent 中大模型参与的比例，将非必要的 LLM 模块转换为代码或脚本语言。
推理加速：模型量化、优化 KV Cache、使用加速框架（FlashAttention、vLLM）、更换高性能 GPU。
降低参数量：在满足需求的前提下选用小参数模型；对于高频场景（如 Function Call）非常适合用小参数模型，可以通过大参数 LLM 作为教师模型蒸馏小参数 LLM。
Agent 预编译：在构建阶段就识别哪些部分不需要大模型实时参与，提前编译掉，大幅缩短线上执行时间。这是当前更具前景的方向之一。

5.6 幻觉应对

幻觉问题在多条路径上同步收敛：模型迭代、Prompt 规范化（Meta-Prompt 自动优化提示词）、慢思考推理模型（如 o1 类）的引入降低了事实性错误；GraphRAG 等引入知识图谱推理的方案进一步降低幻觉比例。

第 6 章 Agent 构建路径与策略

6.1 四步构建路径

将上述挑战和对策串成可执行路径：

第一步：大模型自主决策构建原型。 通过提示词工程先做一版 Agent，是 ROI 最高、成本最低的方式。在此基础上多次调优，看看能否保持稳定运行。
第二步：拆解 Workflow。 如果效果依然不好，开始尝试构造更加结构化的 Workflow，让 Agent 在框架范围内运行以提高稳定性；Workflow 如果使用代码规则编排，也可以提升运行速度。
第三步：设计 Multi-Agent 架构。 如果 Workflow 虽然稳定但智能化不够，或者既需要灵活又需要可控，就需要设计更复杂的 Multi-Agent 架构——将复杂任务拆解成多个子任务，通过多个子 Agent 承接，设计子 Agent 之间的通信方式和形态。
第四步：模型定制化训练。 如果前面三步都尝试了仍然难以调优，或者对准确率、速度、稳定性、智能化能力都有极高要求，就需要对 Agent 的关键环节做模型定制化训练。

从提示词原型到 Workflow、Multi-Agent、模型训练，成本在不断提升，但理想情况下运行效果也在提升。具体要投入多大成本、达到怎样的效果，取决于场景的具体要求。

6.2 Skill 为主 + Workflow 为辅的混合策略

构建路径之外，还有一个贯穿性的工程策略：将成熟的、灵活变化的子任务封装为 Skill；将关键的、对稳定性要求极高的主干流程保留为 Workflow 作为兜底。这种"Skill 为主，Workflow 为辅"的策略，既利用了新技术的红利，又保留了必要的确定性，是当前长程 Agent 落地中较为成熟的工程范式。

6.3 流程管下限，Agent 管上限

最后回到最初的问题：传统流程已经能跑，为什么还要 Agent？

答案是它们解决的问题不在同一个维度。传统流程解决的是"已知怎么做"的问题——路径预定义、每一步确定，追求执行确定性，管的是下限。Agent 解决的是"不知道怎么做，但知道要什么"的问题——路径动态生成，中间需要理解和判断，追求路径智能，管的是上限。

两者不是替代关系，而是覆盖了问题空间的不同象限。当用户的问题落在 SOP 覆盖范围内，流程是最快最稳的选择；当需求描述模糊、多意图交织、中间需要动态判断时，只有 Agent 能填补这个盲区。

从宏观架构上看，今天的 Agent 依然由 Prompt、Planning、Memory、Tools 等经典模块组成，与 Lilian Weng 早期提出的理论框架并无二致。但每个模块背后的运行逻辑、数据流转方式和工程实现范式都发生了深刻的变化。Agent 正在从"魔法调优"走向"系统工程"，从"一次性消耗品"变成"可积累资产"。其核心思想始终未变：在保证安全、可控的前提下，最大化释放模型的推理与执行潜力。

模型会继续升级，工具会继续变化，框架会持续更新，但"通过工程化手段构建确定性，以承载模型不确定性"这一核心思想，将是未来很长一段时间内构建高质量 Agent 的基石。

参考资料

LLM Powered Autonomous Agents - Lilian Weng

Building Effective Agents - Anthropic

What is an AI Agent? - LangChain Blog