Warp：从终端到 ADE 的五年深研

2026 年 4 月 28 日，Warp 把客户端源码扔到了 GitHub 上，AGPL 许可，OpenAI 作为 founding sponsor，配套的云端 agent 编排平台 Oz 由 GPT 系列模型驱动。这家公司累计公开融资约 $73M，接近 100 万活跃开发者，在 SWE-bench Verified 和 Terminal-Bench 上挤进过前列，现在把"怎么造自己"这件事交给社区和 agent 一起做。

开源是一个分水岭事件，但理解这件事的意义需要往前拉。Warp 这条产品线已经走了五年，从 2020 年一个 Rust + GPU 渲染的 macOS 终端开始，一步步变成今天的 Agentic Development Environment（ADE）——包含终端、原生代码编辑、多 agent 协同、云端编排。要看懂 2025-2026 年这个窗口爆出来的所有动作，得从它 2020 年的起点开始看。

下面是一次完整的横纵深研：纵向追 Warp 从 2020 到现在的发展线，横向对齐 Cursor / Claude Code / Windsurf / Devin / Cline 等竞品，最后把两条线交叉给出判断。

一、一句话定义

Warp 是一个把"终端"升级为"AI agent 工作台"的开发环境。它包含四件东西：现代终端、原生代码编辑与 review、单机与多 agent 协同、云端 agent 编排（Oz）。它的定位坐标在 CLI 型 agent（Claude Code / Codex CLI）和 IDE 型 agent（Cursor / Windsurf）之间，试图用终端形态统一两端。

二、纵轴分析：从 Rust 终端到开源 ADE

2.1 起点：一个 Google Docs 工程师对终端的意见

Warp 的创始人 Zach Lloyd 不是典型的终端黑客。他在 Google 做了约七年 Principal Engineer，是 Google Sheets 和整个 Google Docs 套件的工程负责人，之后去 Time 当 CTO，再之后创办过一个叫 SelfMade 的小创业公司。他不是那种"从小就泡在 shell 里"的人，反而在各种访谈里反复讲自己"用了一辈子终端，但一直不是用得特别好的那一种"——他习惯的是 Docs 那种有协作、有 UI、有版本历史的现代生产力工具。

这个背景很关键，决定了 Warp 从第一天起就不是一个为 CLI 高手造的工具，而是一个想让普通开发者也能享受到 CLI 高手生产力的工具。这在后来 agent 时代具备特别的意义——Warp 天然不抵触把终端"更像 IDE"、"更像协作软件"的改造，因为它从来就不是一个原教旨的 CLI 产品。

2020 年公司起步时，Zach 给 Warp 设计了两条腿：

单机腿：用 Rust + GPU 渲染做一个性能和交互都现代化的终端。鼠标可用、多行编辑、命令块（Block）而非传统的 scroll buffer、开箱即用的自动补全和语法高亮。
协作腿：模仿 Google Docs / Postman 的协作路径，做 Warp Drive——把命令、notebook、incident runbook、环境变量变成可以在团队内共享的对象。商业模式从一开始就押在团队版上。

这个组合在 2020-2022 年是"小众但精致"的存在。2022 年 4 月 Warp 正式进入公开 beta，同时对外公布了累计约 $23M 的 seed + Series A 融资，其中 Series A 的 $17M 由 Figma 创始人 Dylan Field 领投（GV、Neo、BoxGroup 等跟投）——这个领投人选在今天看挺有意思：不是典型的 devtools 基金，而是一个做设计工具的创业者。Warp 彼时还是"一个更好的 macOS 终端"，和 iTerm2、Alacritty 并列在各种"最佳终端"清单里。

2.2 转折：ChatGPT 把终端的生态位重新洗牌

2022 年底 ChatGPT 发布，这对任何一家 IDE 类工具都是一次结构性事件，Warp 的反应比大多数终端产品都快。

2023 年 Warp 陆续把 AI 往终端里塞：年初上线 AI Command Search，把自然语言查命令直接做进命令行；同年推出 Agent Mode——一个嵌在终端里、能做多步推理和多步工具调用的 LLM 对话界面。Warp 是较早把 “Agent Mode” 作为一个正式产品特性名发布的工具，这个措辞后来在整个 devtools 圈普及开，成了一个近乎通用的 UI 名词。Warp 在 2023 年就已经把自己的产品定位从"更好的终端"悄悄挪到了"终端里的 agent 平台"。

同年 6 月，Sequoia 领投的 $50M Series B 到账，GV、Dylan Field、BoxGroup、Neo 跟投。这笔钱让 Warp 敢于同时押注两条纵深——“多玩家协作”（Warp Drive）和"AI 在终端里的原生体验"（Agent Mode），从一个精致小工具开始往平台级产品演化。

2.3 争议期：闭源、强制登录与 telemetry

2022-2024 这段时间，Warp 在开发者社区里的形象并不干净。

它是闭源的。它要求登录才能使用。它往 Segment 发 telemetry。在 Hacker News 的各种讨论里，几乎每条关于 Warp 的帖子底下，都有人贴同一组质疑：一个 VC 投的、闭源的、要求登录的终端，让它看见你命令行里的一切，这件事本身就不合理。

2022 年的 Show HN 评论里，这个顾虑是最主流的反对意见。Hacker News 和 r/commandline 上反复出现的一组说法是：“Warp 是闭源、要求登录、默认开 telemetry、一直在说要开源但迟迟不兑现的 VC 背景终端”。GitHub 的 warpdotdev/Warp 仓库 issue #1346 直接取名叫"Warp terminal spyware sending data to Segment"。

2024 年 2 月，Zach 发了一篇正面回应的博客，标题是"Open source and login for Warp"。这篇文章没有拐弯抹角，它承认 Warp 暂时不会开源，原因只有一个：商业风险。他直接引用 Elasticsearch 和 AWS 的案例，说担心更有资源的竞品拿着开源代码来打自己。登录这件事他的立场更硬——他认为为了让云端同步、Warp Drive、AI 配额计量能工作，一次性登录是必要的成本。

结果当然是社区继续骂，但 Warp 的用户量同时在涨。这说明了一件事：对于把终端当工作台的专业开发者，Warp 带来的体验增量已经足够覆盖"要登录、闭源"这层心理税。

同年 11 月，Warp 悄悄把强制登录取消了，改成可选——你可以完全不登录用它，只是享受不到云端功能。这是 Warp 第一次在意识形态问题上向社区让步。

"让步"落到 2026 年的实际操作上，意义是有边界的。要把 Warp 当一个"不登录也能用好的工具"用，需要先看清这条边界在哪儿。

不登录状态下能用的，是起点那条"单机腿"留下来的全部——Rust + GPU 渲染、Block 命令块、模糊补全、语法高亮、命令历史、主题、working directory、prompt 自定义。这是一个比 iTerm2 / Alacritty 更现代的本地终端体验，单这一项就值得装。

用不了的，是所有需要 Warp 后端的东西：Warp Drive 团队共享、跨设备同步的 history 与设置、Agent Mode、code review 面板、Oz 整套云端编排，以及 BYOK（BYOK 限 Build 及以上付费档，付费档需要账号）。AI 在 Free 计划下还有一条额外约束——telemetry 必须开着才能用，付费档才能"关 telemetry 仍保留 AI"。也就是说，“不登录 + 用 Warp 自家 AI” 这个组合在产品里不存在。

匿名本身是一个有 deadline 的状态。Warp 公开的 telemetry 事件表里有一项 Anonymous User Expiration Lockout，匿名用户过了转换期会被锁出。这个窗口的具体长度官方没披露，社区里报告过几天到几周不等。Warp 给的不是"长期匿名"，是"先用再说，早晚要做选择"。

落地姿势大致有三种。第一种把 Warp 当一个不联网的现代本地终端：关 telemetry、不登录，匿名期满前换工具或正式登录；这正是 Warp 2.0 重写之前它的全部价值，今天仍然站得住脚。第二种登录但留在 Free 档加开 telemetry——多数普通用户的实际选择，AI 用着、云端 history 和 Drive 也开着，让渡的是 console 输入。第三种最干脆：在 Warp 终端里跑 Claude Code、Codex CLI、Gemini CLI、Aider 这类第三方 CLI agent，账号关系归模型厂商，Warp 只承担渲染层。这一种最彻底地把"终端"和"AI"分开了，代价是放弃 Warp 2.0 之后的 harness 红利——Agent Mode、code review 面板、Oz 编排、Drive 团队共享都用不了，等于退回 Claude Code / Aider 的纯 CLI 形态。

三种选择背后是同一个判断：Warp 真正的差异化已经搬到 harness 和云端协作层，本地终端那一段今天不是它的护城河。“不登录用好 Warp” 在 2026 年等于明确拿走起点那条单机腿、放弃 Warp 2.0 之后所有演化——这笔交易划不划算因人而异，应该在装之前算清楚账。

2.4 Warp 2.0：把终端重写为 Agentic Development Environment

2025 年 6 月 24 日，Warp 2.0 发布。这一次的命名很讲究：不叫 Warp 终端 2.0，不叫 Warp AI，叫 Agentic Development Environment。

这是一次把自我定义改掉的发布。Zach 的原文里有一段话几乎是宣言：“软件开发正在从开发者用手写代码，快速演化为用 prompt 写代码。一年之内，手写代码会变得越来越罕见，连带 autocomplete 和手动输入命令都会。每个任务都从 prompt 开始，在 agent 的配合下完成。这不只是 coding，还包括 setup、deployment、debugging、incident management，一切都会 agentic。”

Warp 2.0 的产品结构相应被拆成四块，官方称之为四支柱：

Terminal：保留原来的终端体验，主输入框（universal input）同时接受命令和 prompt。可以锁定在 command-mode 或 agent-mode，也可以让 Warp 自动识别来切换。
Code：SOTA 级的编码平台，首发时 SWE-bench Verified 71%，Terminal-Bench v0.1.1 52% 排名第一。原生文件编辑器、专门的 code review 界面、以及基于 o3 等推理模型的 planning 模式共同构成了编码栈（官方博客原文：“dedicated planning mode using state of the art reasoning models like o3”）。
Agents：把"一个 agent"拔高为一等公民。可以同时跑多个 agent，每个有自己的状态、权限、通知，在一个管理面板里统一观测。
Drive：团队知识库，MCP 配置、rules、命令、notebook、环境变量、prompt 都存在这里，既给人用也给 agent 用。

Warp 2.0 的技术细节值得展开一下，因为这直接关系到它能在 benchmark 上抢跑的原因。

它选择了单 agent 架构 + 聚焦工具集的路线，而不是时髦的多 agent 子代理协作。agent 通过 CLI 命令、MCP、Warp Drive、Codebase Context 四类途径收集上下文，通过 grep、glob 等工具 + 代码库 embedding 做检索。这个选择在 Warp 2025 年 9 月发的 SWE-bench 技术博客里被明确论证过：单 agent 加上扎实的工具抽象比引入子代理更稳定，子代理带来的上下文分裂反而拖累 benchmark 表现。

Context 管理上他们做了一堆细活儿：

task list：agent 自动生成并在运行中动态更新的待办清单。这替代了早期"一次性计划 + 僵硬执行"的 planning，让 agent 可以在运行中根据新信息调整路径。上线后光这一项就带来 2% 的 SWE-bench baseline 提升。
model-aligned summarization：上下文窗口满时，不用辅助 LLM 来压缩，而是让承载对话的同一个模型来做压缩。Prompt 里明确定义什么叫好的 summary，TODO 和 rules 被确定性保留，不受压缩影响，用最近一次 user-agent 回合来衔接压缩后的上下文。
diff 只回修改段 ±k 行：以前是文件编辑后把整文件返回给 agent，5000 行的文件改一行也要回 5000 行，吃 context 非常凶。改成只回修改段周围 ±k 行，既提质又省 token。
long-running command support：通过 pty 的读写给 agent 开了操作 REPL、vim、debugger 的权限。agent 运行长命令时，一部分工具调用会被临时屏蔽，避免它一边开着 vim 一边去写文件。

模型侧的演化也值得记一笔。Warp 2.0 首发时主模型是 Claude Sonnet 4，Opus 4 负责 planning；2025 年 9 月的 SWE-bench 更新里主力模型换成了 GPT-5，分数从 71% 抬到 75.8%；到 2025 年底 Warp 支持的模型已经扩到 20+，横跨 OpenAI、Anthropic、Google 三家，并开放 BYOK（自带 API key）。Warp 的逻辑很清楚：模型层在快速同质化，Warp 自己不下场卷底模，押注的是 harness——怎么组织上下文、怎么选工具、怎么 review diff、怎么权限管控，这些工程细节才是应用层的差异化。

权限模型是 Warp 2.0 里另一个被低估的硬件：

可以决定是否自动接受 diff
可以决定 agent 是否可以读本地文件
可以决定 agent 是否可以运行命令
可以设置命令 allowlist 和 denylist
可以决定哪些 MCP 服务器不需要人工确认
可以在任何时刻 pause 一个 agent

Warp 2.0 还明确了一个产品哲学判断：先把 agent 锁在本地，不是一开始就上云。官方博客原文是：“we intentionally started locally rather than having agents running around in the cloud, as cloud-based agents remove the human from the loop too early relative to the state of today’s technology and disempower developers”。这一点在 2026 年 Oz 的发布里会被重新审视——Warp 最终承认只在本地不够，云端编排和本地控制必须形成连续体。

2.5 Warp Code 与 Agents 3.0：review-first 的路线收敛

Warp 2.0 之后的半年里 Warp 做的事都围绕一个判断：瓶颈已经不是"agent 能不能写代码"，而是"人能不能快到足以理解、控制、review agent 写出来的东西"。

2025 年 9 月发布的 Warp Code 就是这个判断的具象化：一个专门为 agent 生成 diff 设计的 code review 体验，一个轻量的原生文件编辑器（tab 切换、文件树、find-and-replace），再加上 Projects 概念与 WARP.md 规则文件，把团队级的 agent 行为约束统一起来。

WARP.md 这个设计值得注意。它和 OpenAI 生态的 AGENTS.md、Anthropic 的 CLAUDE.md、Cursor 的 .cursor/rules 并列，在仓库根目录写一份项目级的 agent 指导——技术栈、命令、约定、禁区——让 agent 进项目时有"本地知识"。Warp 同时兼容上述多种格式，不强制用户迁移到自己的标准。这是一个典型的"不和别人争标准"的姿态，直接把所有主流格式都认了。

2025 年 11 月的 Agents 3.0 做了两件事：

Full Terminal Use：agent 能像人一样使用终端，包括 REPL、debugger、全屏应用（vim / htop / k9s / tmux 等）。这是在 Warp 2.0 那套 long-running command 支持上的进一步扩展。做 computer use 的公司很多，Warp 的独特位置在于它做的是 terminal use，而 Warp 本身就是终端，等于 agent 运行在宿主自己的进程上下文里，对 pty 和 ANSI 控制序列的理解比外挂式 computer use 精确一个量级。
Slack / Linear / GitHub Actions 集成：让 agent 可以被外部事件触发，不再只能是开发者坐在键盘前敲 prompt。这是在为两个月后的 Oz 发布铺路。

到 2025 年底 Warp Wrapped（年度回顾）披露的数据：agent 编辑约 32 亿行代码，索引超过 12 万个代码库，diff 接受率 96%+，写出超过 10000 个 PR、解决约 940 个 issue，模型调用累计消耗 tens of trillions 量级的 token。

2.6 Pricing 的暗涌

这条线必须单独讲，因为它揭示了 agentic 产品真正的商业困境。

Warp 早期的定价是经典 SaaS：订阅 + 每月固定请求额度，档位分 Pro / Turbo / Lightspeed。这套结构是按"平均用户的平均用量"来校准的，前提是大部分用户用不满自己买的额度。Warp 2.0 发布时（2025 年 6 月）为了庆祝把各档额度大幅上调——Pro 月度 AI 请求从 1000 提到 2500，Turbo 从 3000 提到 10000，Lightspeed 无限。

但这个模型在 agent 时代开始穿底。单用户的真实消耗随 Agent Mode、Agents、多 agent 并行一路走高，单次 agent 运行就可能吃掉旧 Pro 档一大半额度。Warp 在官方博客里承认了这个结构性问题：「许多用户用不完买的额度」；「用完额度后的按量 overage 价格是基础额度的 8 倍，用户体感像被宰」；「在满负荷使用下，这套计划在经济上不可持续，而且用户用得越多，Warp 亏得越多」。

2025 年 10 月 30 日 Warp 推出了新的定价体系——Build plan，$20/月起，含 1500 credits，同时废弃 Pro / Turbo / Lightspeed 三档；Business plan 对齐为 $50/月含同样额度，加上 SSO 和强制 ZDR（零数据保留）；overage 改名为 Reload Credits，价格砍到原来的 50%，可跨 12 个月累计。BYOK 同步开放到 Build 和 Business 档，允许直接接自己的 OpenAI / Anthropic / Google API key，AI 账单由模型厂直接出，Warp 只收 harness 的钱。

社区反应分两派。一派是老 Turbo / Lightspeed 重度用户，抱怨新档位的基础额度相比自己原来的实际消耗缩水严重，r/warpdotdev 和 GitHub issues 里有一波针对这次改制的不满贴。另一派——按 Warp 自己披露的数据，超过一半的用户月度成本会下降或上涨不超过 $2——对变更无感。

这是一次把"不可持续的低价档位"砍掉、强迫重度用户走 BYOK 或 Reload 的动作。它的商业逻辑是清楚的：Warp 不跟模型厂商比补贴——Anthropic 有 Claude Code、OpenAI 有 Codex CLI、Google 有 Gemini CLI，这三家都能把模型调用成本压到第三方打不过的水平。Warp 要做的事是把自己从"AI 定额 SaaS"改成"harness + 协作平台 + 按实际用量的 credits"——卖工程和体验的溢价，不卖模型额度。

这是一个务实但危险的选择。Claude Code 有模型厂内部补贴，Cursor 有近 300 亿美金估值撑腰，Codex CLI 是 OpenAI 亲儿子。Warp 必须赌重度开发者愿意为 harness 本身每月多付 20-80 美元，而不是跑去用某家模型厂的"几乎免费"方案。这个赌注是否能继续赢，到 2026 年就是现在进行时。

2.7 Oz 与开源：2026 年的两次大跳

2026 年 2 月 10 日，Warp 发布 Oz——定位是"运行、管理和编排 coding agent 的云端平台"。Zach 在发布博客里用的类比是 “Vercel / Supabase for deploying agents”：想部署和 orchestrate 多个 agent 的开发者不应该自己再搭一套云端脚手架（沙箱、会话追踪、steering、团队可见性），Oz 把这些都做成现成的。

Oz 的设计哲学在官方博客里被列成七条原则：起点在终端（终端是 agentic 开发天然的 control plane）、programming-first（开发者拥有完整控制权）、开箱即用不用自己搭脚手架、对 orchestration pattern 保持 agnostic（不管未来的主流是 team lead、teammates 还是 Ralph Wiggum 那种并行加权，Oz 都不强加一种）、可以脱离 Warp 桌面端独立使用（通过 CLI / API / Web）、和 Warp 终端有 first-class 集成、面向团队而非个人。最后一条隐含的对标很明显——Claude Code 的产品形态和权限模型偏向个人开发者场景，Oz 把团队级的 session 共享、环境共享、权限编排作为一等公民。

一个 Oz agent 的生命周期长这样：

环境：Docker 容器 + 一个或多个 git repo + startup 命令。环境可在 Warp 里用 /create-environment slash command 创建，也可以用 Web app 或 CLI；设置通常不超过五分钟，多数工作由 agent 自己完成。环境默认在团队内共享，可以塞任意多个 repo 让 agent 有跨仓库上下文。
触发：可以在 Warp 桌面端直接开、用 oz CLI 本地跑、通过 REST API / SDK 程序化启动、在 Oz Web app 上启动、按 cron 时间表自动触发。运行位置默认在 Warp 托管的云基础设施上，企业版支持 self-host。
自动追踪：任何 Oz 运行都会自动产出一个 Agent Session Sharing 链接，团队成员可以实时查看 agent 的进展并随时接管；产出的 artifacts（PR、分支、plan）都在 session view 里，也可通过 CLI / API 获取。
Skill 即 agent：任何 Skill 都可以作为 agent 启动，兼容 Claude Code、Codex 等的 skills 格式，也兼容项目内 .agents/ 目录下的自定义 skill。agent 启动时指定一个 Skill，运行期间可调用环境里所有其他 Skills。

这是一个很大方的技术选择——Warp 没有为自己的编排层另起炉灶，而是直接复用了其他厂商已经建好的 skills 生态。

Warp 内部把 Oz 用得很深。Zach 在发布博客里给了三个例子：

把 mermaid.js 移植到 Rust。Warp 用自研 Rust UI 框架没法直接用 mermaid，他们用 Oz 按图表类型并行派 agent，每个 agent 用 computer use 把自己的输出跟原版 mermaid 的结果做视觉对比。
fraud-bot。免费档的 AI 额度吸引了刷量，一位工程师用 Oz 做了一个 agent：每 8 小时扫一遍新注册和可疑使用模式，不光识别还直接写 PR 去堵漏。一次早上的运行就拦下了"近 6 万美元"的欺诈性 Warp 用量。
PowerFixer。一个 CLI 应用，让工程师从 GitHub 上看 issue、去重、一键派 agent 修 bug，session sharing link 让整个团队能看到 agent 正在做什么。

这些内部用法的总结是一条让人不太敢信但官方明说的数据：Oz 现在写 Warp 60% 的 PR，这个比例还在涨。Warp 同时开源了一批内部在用的 skills 作为参考。

Oz 的定价与 Warp 的 Build / Build Business / Max 档位绑定——每档送一部分 cloud agent credit，超出按量计费，AI 使用和 compute 使用都计入同一个 credit 池。发布当月 Build 以上档位送 1000 bonus credits。Zach 在发布博客结尾的一句话是：“2025 is the year of interactive agents. 2026 is the year of agent orchestration.”

两个月后，2026 年 4 月 28 日，Warp 做了五年里最反直觉的一件事：客户端全部开源，AGPLv3 许可（UI 框架 warpui_core 用 MIT），OpenAI 成为 founding sponsor，Oz 的 agentic 开发流由 GPT 驱动。

这里有几点值得拆开看。

第一，为什么是现在。Zach 在开源博客里给了两个理由。其一是业务理由：Warp 的瓶颈已经不是写代码，而是"围绕代码的 human-in-the-loop"——写 spec、验证行为、review。把仓库开出来，让社区接手管理 agent 做实现，这是他们内部已经验证过的路线（Oz 写 60% PR 就是证据），向外复制一下。其二是站位理由：目前市面上没有一个"功能完整的开源 ADE"，Warp 想抢占这个生态位，不让闭源的 Cursor 和 Claude Code 独占赛道。

第二，开源模型的尴尬之处。AGPLv3 对商业使用有很强的约束，其他公司想 fork 一个 Warp 去卖钱会被许可证限制住。Zach 2024 年那篇"暂不开源"的博客里提到的"担心 Elasticsearch + AWS 那种事"，到 2026 年用 AGPL 解决了。这是一个非常成熟的开源策略，不是社区浪漫主义，是经过商业计算的防御性开源。

第三，OpenAI 的介入很有意思。founding sponsor 的身份意味着什么，目前披露不多，但 Oz 的 agentic 开发流明确用 GPT 模型。在 OpenAI 以 $3B 收购 Windsurf 之后，它还跑来赞助 Warp 的开源，说明 OpenAI 的策略不是"只投一个"而是"广撒网"，尤其是在 IDE / 终端 / agent 平台这些靠近开发者的生态位上。Warp 接受这个赞助，等于把自己绑到了 OpenAI 的战车上——GPT-5 已经是 Warp SWE-bench 的主力模型，这条绑定关系会越来越深。

开源 + Oz 这一套组合拳的真正含义是：Warp 认定自己单靠内部团队打不过 Cursor 和 Anthropic，索性把产品变成一个平台，用"社区 + Oz + OpenAI"这三股力量对冲头部玩家的资源优势。

三、横轴分析：2026 年的 AI coding 工具图谱

把镜头从 Warp 单独拉开，看 2026 年春天的整张图谱。这是一个非常拥挤的赛道，每个玩家的位置都不太一样。

3.1 Cursor：IDE 派的主流，钱最多

Cursor 背后是 Anysphere。2025 年 11 月 13 日完成的 Series D 融资 $2.3B，post-money 估值 $29.3B（CNBC 报道）。这是整个 AI coding 赛道里现金储备最多的一家。

产品形态上 Cursor 就是一个 fork 过的 VS Code 加上 agent 能力。它是 IDE 派的代表——主界面是代码编辑器，agent 以 chat panel 或 agent mode 的方式嵌在里面。优势是对 VS Code 生态的完整继承：几十万个 extension、调试器、语言服务、UI 细节，都是现成的。用户的学习曲线是零，付 Pro $20/月或 Ultra $200/月的订阅费换的是在熟悉环境里多一个能干的 AI，Ultra 档按 Cursor 自己的说法相比 Pro 的 frontier 模型调用额度多 20 倍。

Cursor 的弱点在 agent 化的彻底性上。它的底子是 2015 年的 VS Code，而 VS Code 的交互范式是"人在 hand-edit"。Cursor 在这个底子上长出了 composer、agent mode、background agent，但整个 UI 的重心仍然是代码编辑。当开发者把主要时间花在"给 agent 写 prompt、看它做什么、review diff"的时候，Cursor 的界面其实在浪费屏幕空间给一个越来越少被直接用的编辑器。

Zach 在播客里说了一句有点挑衅的话："如果你看 Cursor 的最新版本，它的主界面已经越来越像 chat interface，而不是编辑器。它正在往 Warp 的方向走。"这里面的判断是：IDE 派和终端派在向中间聚拢，Cursor 的 IDE 底子越来越像历史包袱。

3.2 Claude Code：CLI 派的扛把子

Claude Code 是 Anthropic 官方的 CLI agent，在 Zach 自己口中被反复提及为"Warp 最像的竞品"。

它的形态是一个运行在终端里的 CLI 应用。在任何终端（包括 Warp）里敲 claude，就进入一个交互式 session。它的扩展生态已经非常成熟，skills、hooks、plugins、slash commands、subagents、MCP 服务器、CLAUDE.md 的 memory 机制，这是目前业界最完整的一套 agent 工程化扩展体系。Anthropic 把很多内部最佳实践直接做成官方 skill 发出来，社区也有 awesome-claude-code 这样的 curated list。

Claude Code 的优势有三条：

模型直连：Anthropic 自己的 frontier model 直接给自己人用，响应延迟、上下文长度、工具调用准确性这些维度，Claude Code 天然有 first-class 体验。
极度工程化的扩展系统：skills 这套设计让"复杂任务模式"可以被沉淀成可复用的资产，hooks 让工作流可以编程化介入，slash commands 提供快速入口。这是目前业界最完整的 agent 扩展生态。
补贴能力：作为模型厂商自己的产品，Claude Code 能把使用成本压到第三方做不到的水平。

它的弱点是 CLI 形态自身的天花板。CLI 应用跑在别人的终端里，UI 表达能力就被宿主终端决定了。原生的 diff 编辑器、跨多个 session 的 agent 管理面板、多个 agent 并行跑时的状态总览，这些在 Claude Code 里都没法做，因为它根本没有画 GUI 的画布。把 Warp 和 Claude Code 摆在一起，差别不在 agent 智能，而在界面表达力——Warp 有自己的 UI 层，Claude Code 只有 terminal stdout。

Anthropic 显然也在往界面层补课。Claude Code 的 VS Code 扩展在 2025 年下半年已经有完整形态，但主产品形态始终是 CLI，这意味着它和 Cursor 的正面冲突仍会发生在模型端和订阅补贴端，而不是 UI 端。

3.3 Windsurf：被切成两份的 IDE

Windsurf（原名 Codeium）在 2025 年经历了整个 AI coding 赛道最戏剧性的一次收购拉锯。

2025 年 4 月底到 5 月初，彭博社率先披露 OpenAI 计划以约 $3B 收购 Windsurf，这本会是 OpenAI 历史上最大的一笔收购。两个月后的 2025 年 7 月 11 日，这笔交易宣告破裂。同一天，Google 宣布通过非独占许可协议支付约 $2.4B 获得 Windsurf 核心技术授权，并把 Windsurf CEO Varun Mohan、联合创始人 Douglas Chen 以及 R&D 核心团队直接挖进 Google DeepMind 去做 agentic coding。三天后的 2025 年 7 月 14 日，留下来的 Windsurf 剩余资产——IP、产品、商标、品牌以及剩余员工——被竞争对手 Cognition AI（Devin 的母公司）收购。

这一连串动作把 Windsurf 实质上拆成了两份：最值钱的核心团队 + 技术授权去了 Google，产品壳子和剩余团队归了 Cognition。Windsurf 这个 IDE 品牌还在，但它背后已经不再是原来那家试图对标 Cursor 的独立公司。

Windsurf 的技术差异化曾经主打 Cascade 这个 agent runtime 和"agent + human-in-the-loop"的实时共编辑体验，产品底子和 Cursor 一样是 fork VS Code + agent。在 Cognition 接手后，Windsurf 的定位出现了一个微妙的矛盾——Cognition 自己的主力产品 Devin 走的是完全云端自主 agent 的路线，Windsurf 走的是本地 IDE 路线，两者哲学相反，整合起来并不容易。到 2026 年 Q1，Windsurf 作为 Cognition 产品线里"IDE 形态的那一支"继续运行，但相比独立时期的势头明显弱了。

对整个赛道的信号是：IDE 派的独立玩家很难靠自身造血撑下去。Cursor 能撑下去是因为抢到了第一个心智位 + 连续大额融资；Windsurf 晚了半年，就只能被拆解分食。

3.4 Devin：云端自主 agent 的极端实验

Cognition AI 做的 Devin 是一个完全不同的物种。它不是"让开发者更好地使用 agent"，而是"一个能独立工作的 AI engineer"。

Devin 最早 GA 时的定价是 $500/月起的团队套餐；2025 年 4 月 3 日推出 Devin 2.0，改成按 ACU（Agent Compute Unit）计费的订阅 + 用量模型：Core 档 $20/月（含一部分初始 ACU），超出后 $2.25 per ACU；Team 档更高月费、ACU 单价降到 $2.00。按 Cognition 官方说法，1 个 ACU 约等于 15 分钟的 Devin 活跃工作时间。从 $500/月一刀切降到 $20/月起，这是一次幅度相当大的定价重构，官方解释是要降低尝鲜门槛。

Devin 的产品形态是一个云端浏览器界面，开发者在上面给 Devin 派活，它自己去做、自己调试、自己写 PR。它试图完全替代"人 + 键盘 + 代码"这套传统流程。

从独立 benchmark 和社区反馈看，Devin 目前还不在完成度的第一梯队，但它代表了一条极端路线：完全自主、完全云端、完全不要求人在 loop 里。Warp 的 Oz 是这条路线的克制版——Oz 也把 agent 搬到云上，但明确保留了 handoff 到本地的机制，主打"人类保持控制"的哲学。

Zach 在这一点上态度很鲜明：「cloud-based agents remove the human from the loop too early」。Warp 的 Oz 是"云端 + 本地可接管"的折中，Devin 是"纯云端不可接管"的激进。

3.5 其它坐标：Aider / Cline / Zed / Amp / Droid / Kiro

剩下的玩家要么规模较小，要么形态特殊，简单扫一遍：

Aider：Paul Gauthier 维护的开源纯 CLI agent，Python 写的，轻量、可控、极客友好。它的存在提醒了一件事：一个好的 agent 本质上只需要一个终端 + 一堆工具 + 一个好模型，花哨的 UI 不是必须的。对不愿意付订阅费、愿意自己管 API key 的开发者很有吸引力。
Cline：开源的 VS Code 扩展，人在 loop 里的派别，每一步都要 approve，适合谨慎型用户。
Zed：Rust 写的开源代码编辑器，由 GitHub Atom 的核心团队 Nathan Sobo 等人重新出发创立。2025 年在 Agent Panel 上做了大量工作，推出了 Agent Client Protocol（ACP）这个开放标准来连接各种 agent。和 Warp 是"同代 Rust 派"，但 Zed 明确走编辑器路线而非终端路线。
Amp：Sourcegraph 推出，背靠 Sourcegraph 原有的代码搜索能力，强调 deep mode 的自主性。
Droid：Factory AI 推出，主打 CLI 形态的 agent，在 Terminal-Bench 上常年占据前列，是 Warp 在命令行 agent 这条赛道上最直接的正面对手。
Kiro：Amazon 在 2025 年推出的 spec-driven 派 agentic IDE，强调在 agent 做事前先把 spec 写死，天然适配企业开发场景，属于 AWS 生态的官方答案。

把这些放在同一张坐标上，X 轴是"人在 loop 里的深度"，Y 轴是"产品的底子从哪里来"，大致是这样的分布：

最左上（人深入 loop + IDE 底子）：Cline、Cursor 的 manual mode
右上（人浅入 loop + IDE 底子）：Cursor agent mode、Windsurf Cascade、Zed agent
左下（人深入 loop + 终端底子）：Aider、Claude Code 的 review mode
右下（人浅入 loop + 终端底子）：Claude Code 的 auto mode、Droid、Warp Agent Mode
最右（人基本不在 loop）：Devin、Warp Oz 的全自动触发

Warp 的定位是横跨从 Agent Mode 到 Oz 的整条右侧光谱，这是它相对其他玩家的独特之处。它既做 Claude Code 式的本地交互 agent，也做 Devin 式的云端自主 agent，中间还有 IDE 派的 code review 能力。这是一个贪心的定位，好处是覆盖广，坏处是每个子场景都得面对专门玩家的正面竞争。

3.6 benchmark 层面的实际位置

这部分要非常小心，因为 benchmark 有版本、有时效、有厂商自测的 bias。

Warp 官方博客里公布过的分数：

Terminal-Bench v0.1.1（2025 年 6 月）：52%，提交时排名第一
SWE-bench Verified（2025 年 6 月）：71%，排名进入 top 5
SWE-bench Verified（2025 年 9 月，GPT-5 主模型）：75.8%
Warp Wrapped 里引用的 2025 年底数据：Terminal-Bench 61.2%、SWE-bench Verified 75.6%

到 2026 年 Q1-Q2，Terminal-Bench 升级到 2.0 版本，任务难度重新标定，榜单完全洗牌。tbench.ai 官方榜目前前列的组合：OpenAI 自家的 Codex agent 配 GPT-5.5 在 82.0% 左右排第一，ForgeCode 配 GPT-5.4 在 81.8% 紧随其后，TongAgents（BIGAI）配 Gemini 3.1 Pro 在 80.2%，ForgeCode 配 Claude Opus 4.6 在 79.8%，Factory AI 的 Droid 配 GPT-5.3-Codex 在 77.3%。从 harness 提供方来看，独立 agent 厂商（ForgeCode、Factory Droid、TongAgents）已经在 harness 工程上抢到和模型厂自家 agent 同一档的位置。Warp 自己的 Agents 3.0 / Oz 组合目前没有在 Terminal-Bench 2.0 的官方榜上提交过独立条目，需要通过 Wrapped 或产品博客披露的自测数据间接比对。

真正有信号价值的是：在 Warp 2.0 发布的那个时点，它的 harness 让 Sonnet 4 + Opus 4 的组合在 SWE-bench Verified 上冲进前五；三个月后换成 GPT-5 主模型，harness 几乎不动的情况下分数再抬 4.8 个百分点。两次提交的核心改动——task list、model-aligned summarization、diff 只回 ±k 行、长时命令支持——都是纯 harness 层面的工程。Warp 自己的 SWE-bench 博客里明确给出过 task list 带来 2% baseline 提升的数字，这是一个可以精确归因到工程动作的增量。

换句话说：模型在变强，harness 的绝对价值在下降；但 harness 的相对差异仍然存在，而这是 Warp 这类应用层产品护城河的核心部分。在 2026 年这个阶段，再强的底模也只能解决 75-85% 的 SWE-bench 任务，剩下 15-25% 的差距主要取决于 context 管理、工具设计、权限粒度、回滚机制——这些全都是 harness 工程。

四、横纵交汇：几个我自己的判断

这部分是整篇里的观点密度段落。前面是事实，这里是判断。

4.1 终端作为 agent workbench 到底成不成立

这是整个 Warp 叙事的最底层命题。Zach 给的论据有四条：时间基、纯文本、天然多路复用、自带日志。这四条对的，但不完整。更关键的一条是，终端是人机交互里唯一还保留 process tree 概念的地方。IDE 的交互对象是文件和 UI event，终端的交互对象是进程和信号。agent 本质上就是一个长时运行的进程，需要起其他进程、等它们、杀它们、收集 stdout/stderr，这些在 shell 里是第一等公民，在 IDE 里是要特意去搭的二等公民。Claude Code 跑在 Warp 里比跑在 iTerm2 里体验好也是同理——Warp 把进程理解做到了 block 级别，而不是传统终端的字符流级别。

反面同样成立：终端的天花板在图形化反馈上。agent 做完事需要 UI 来 review，而 diff view、树形导航、可交互 element 选择本质都是 GUI 范式。Warp 自己也意识到了这件事，加了原生代码编辑器、文件树、code review 面板。加到最后，它长得越来越像一个"以终端输入为中心的 IDE"。

合理的结论是：终端作为 agent workbench 的底层假设成立，但单纯的终端不够，需要一个以终端输入为中心、同时具备 IDE 图形反馈能力的新形态。Warp 在往这个形态走，Cursor 也在从另一头往这个形态走——两条线起点不同，但很可能收敛到同一个物种上。

4.2 Warp 的真正护城河是什么

Warp 的护城河既不是 Rust，也不是 GPU 渲染，更不是 benchmark 上的几个百分点。这些都是可复制的工程差异。真正难复制的是它跨越 local / cloud / multi-agent 的连续体验。

Cursor 有 local agent，但它的云端 background agent 和本地 agent 是两套分离的体验，接续不顺畅。Claude Code 只有 local，云端编排完全缺位，Oz 这种级别的平台化能力它没做过。Devin 只有云端，本地接管是二等公民。

Warp 的 Oz 是目前唯一把这条路径做成连续体的产品：本地可以在 Warp 桌面里直接开 agent，混合场景是本地敲 oz <task> 把任务扔到 Warp 云或自托管环境，纯云端可以从 Web app、API、Slack 触发完全不需要本地参与，任何一个云端运行的 agent 也都可以一键 handoff 回本地 Warp 继续。只要 Oz 这一层的工程质量站得住脚，Warp 就有一条其他玩家短期内补不齐的护城河。

4.3 开源的真实算计

4 月 28 日这次开源听起来像理想主义的胜利，其实是一次非常冷静的商业决策。

先看许可证：AGPLv3 对 client 主体，MIT 只给 UI 框架。AGPL 的网络反向衍生条款意味着任何公司想在云端商业化 fork 的 Warp 都必须把修改也开源。这是"防御性开源"的典型做法，MongoDB 和 Elastic 都走过这条路。Warp 在开源社区会被一部分原教旨主义者喷"AGPL 不是真开源"，但对 Warp 商业利益而言，这是最优解。

再看 founding sponsor。OpenAI 作为开源发布的 founding sponsor 出面，Warp 在官方博客里引用了 OpenAI 工程团队成员 Thibault Sottiaux 的表态，大意是：开发者需要更强大的、agent-native 的工具来释放 AI 在 coding 上的潜力，Warp 正在围绕 GPT 等前沿模型打造一个首选的 agentic 开发环境，开源这一步会让整个开发者社区受益。OpenAI 的赞助既包括资金，也包括对 GPT 模型在 Oz 上深度适配的工程配合。

这等于 Warp 用开源姿态换了三件事：OpenAI 的资金支持、GPT 模型的深度优化和早期访问、在 Anthropic-Claude Code / Google-Gemini CLI 之外的第三极站位。Cursor 选了"谁家模型都用"的中立路线，Claude Code 是 Anthropic 亲儿子，Warp 这次选的是"和 OpenAI 深度绑但不自限"的混合策略——Warp 仍然会在产品里同时支持 Claude、Gemini 等主流模型，但旗舰编排流用 GPT。这不是技术问题，是生存策略。

“agent-first 开源 workflow” 这个设计也很典型：社区提 idea，Oz 执行实现，Warp 团队审核方向。这相当于把 Warp 的研发能力众包了一层，但保留了方向盘。跑通了 Warp 就拿到一个自我改进的开发飞轮；跑不通也只是退回原来的闭源模式，下行风险可控。

4.4 为什么 2026 年会是 agent orchestration 的年

Zach 在 Oz 发布博客的结尾下了这个判断：“2025 is the year of interactive agents. 2026 is the year of agent orchestration.”

这个判断基本成立，但需要补一个更底层的因果。interactive agent 走向 orchestration 的根本原因不是工具厂商想卖新东西，而是单 agent 的边际产出开始递减——一个 agent 做一个任务已经接近中等开发者的水平，再强的模型提升也难以从"完成 75% 的 SWE-bench 任务"跃到"完成 100%"。下一个台阶不是让一个 agent 更强，而是让多个 agent 协同、让团队级 agent 可观测可调度可复用。Oz 这类平台在 2026 年集中涌现，解决的不是 agent 不够聪明的问题，而是"一个 agent 再聪明也不够用"的问题。

orchestration 层本身同样面临同质化风险。Vercel for agents 这个隐喻意味着未来会出现若干个功能类似的 Vercel，Warp 的 Oz、Cognition 的 Devin Cloud、GitHub 的 Coding Agent、Sourcegraph 的 Amp Cloud 都在做同一件事。这一层最后谁能吃到主要份额，取决于两件事：谁握有开发者入口（Warp 有先发优势）和谁能和仓库、CI、项目管理系统做最深的集成（GitHub 有结构优势）。Oz 真正要担心的对手不是 Claude Code，是 GitHub 自家正在长出来的 agentic coding platform。

4.5 Warp 最危险的三件事

作为收尾，点三件 Warp 现在其实没解的难题。

第一，定价模型可持续性。按量定价解决了毛利率问题，但同时把价格敏感度最高的 vibe coding 用户赶到了竞品那里。这批用户今天不是付费主力，但他们是明天的开发新兵。Warp 在"pro 用户愿意多花钱"这个假设上下注，这个假设如果被 Claude Code 或 Gemini CLI 的低价策略打穿，Warp 的用户增长曲线会失速。

第二，benchmark 的漂移。Warp 2.0 发布时的那套 harness 很强，但到 2026 年 Q1，更强的底模已经让其他玩家的分数追上来。Warp 在 Terminal-Bench 2.0 上需要持续发新的 benchmark 博客来维持"技术领先"的叙事，任何一次分数被追平或反超，都会对它的定价逻辑产生压力。

第三，open source 的治理难度。开源 client 是一次性动作，但维持一个"agent-first 的协作仓库"是长期工程。社区的 PR 质量控制、Oz 生成代码的可信度审查、maintainer 团队的 bandwidth，这些都是新问题。Warp 之前没做过大规模开源项目的治理，踩坑是必然。

这三件事任何一件处理不好，都可能让"Warp 作为 ADE 第一入口"的故事变得不完整。

五、信息来源

官方

Zach Lloyd, “Introducing Warp 2.0: the Agentic Development Environment”, warp.dev blog, 2025-06-24
Zach Lloyd, “Warp is now open-source”, warp.dev blog, 2026-04-28
Zach Lloyd, “Introducing Oz: the orchestration platform for cloud agents”, warp.dev blog, 2026-02-10
Zach Lloyd, “Open source and login for Warp, the collaborative terminal”, warp.dev blog, 2024-02-22
Hong Yi Chen, “Warp Wrapped: 2025 in Review”, warp.dev blog, 2025-12-30
Jack Nichols, “How we scored #1 on Terminal-Bench (52%)”, warp.dev engineering blog, 2025-06-25
Suraj Gupta and Daniel Peng, “Warp scores 75.8% on SWE-bench Verified”, warp.dev engineering blog, 2025-09-01
Warp docs, “Oz platform” and “Cloud agents overview”, docs.warp.dev
Warp docs, “Privacy and data control” 与 “Troubleshooting login issues”，docs.warp.dev/support-and-community/（关于匿名账号 / Anonymous User Expiration Lockout / Free 档 AI 与 telemetry 绑定的官方说明）
GitHub, warpdotdev/warp repository, AGPLv3 license, 2026-04-28 onwards

访谈与播客

Sonya Huang, “Making the Case for the Terminal as AI’s Workbench: Warp’s Zach Lloyd”, Sequoia Capital Training Data podcast
The New Stack Agents, “How Warp Went From Terminal To Agentic Development Environment”

第三方报道与分析

TIME, “Best Inventions of 2025: Warp Agentic Development Environment”
CNBC, “AI startup Cursor raises $2.3 billion funding round at $29.3 billion valuation”, 2025-11-13
Reuters, “OpenAI agrees to buy Windsurf for about $3 billion, Bloomberg News reports”, 2025-05-06
VentureBeat, “Devin 2.0 is here: Cognition slashes price of AI software engineer to $20 per month from $500”
RedMonk, “A New Take on the Terminal with Zach Lloyd”, 2025-12-16
Forge Global, Warp funding overview
Terminal-Bench 2.0 leaderboard, tbench.ai
SWE-bench leaderboards, swebench.com

社区与用户反馈

Hacker News discussions on Warp（items 30921231、37810716、42247583、44704043 等）
GitHub issues in warpdotdev/Warp：telemetry 相关（#1346）、WARP.md 相关（#7199）、BYOK 相关（#2788）等
r/warpdotdev subreddit：pricing 与 billing 投诉集合

独立复核标注

“某全球咨询公司生产力提升 240%”：出自 Warp 2.0 官方博客自述数据，无独立第三方核实来源。本文在正文中未直接引用这一具体数字。
“Oz 现在写 Warp 60% 的 PR”：出自 Warp 官方博客，属于厂商自述，无外部审计。文中已标注"官方明说"以提示来源性质。
“fraud-bot 一次早上的运行拦下近 6 万美元欺诈性用量”：出自 Oz 发布博客，同上。
Terminal-Bench 2.0 榜单数据截至 2026 年 Q2 的 tbench.ai 官方页面。SWE-bench Verified 分数均来自 Warp 官方博客与 swebench.com 官方榜单的交叉对齐。
Cursor Series D $2.3B @ $29.3B post-money 估值以 CNBC、Cursor 官方博客双源核实。
Windsurf 拆分的三组金额（OpenAI $3B 意向、Google $2.4B 许可、Cognition 接手剩余资产）以 Reuters、CNBC、New York Times 多源核实。