2026 年 4 月 28 日,Warp 把客户端源码扔到了 GitHub 上,AGPL 许可,OpenAI 作为 founding sponsor,配套的云端 agent 编排平台 Oz 由 GPT 系列模型驱动。这家公司累计公开融资约 $73M,接近 100 万活跃开发者,在 SWE-bench Verified 和 Terminal-Bench 上挤进过前列,现在把"怎么造自己"这件事交给社区和 agent 一起做。

开源是一个分水岭事件,但理解这件事的意义需要往前拉。Warp 这条产品线已经走了五年,从 2020 年一个 Rust + GPU 渲染的 macOS 终端开始,一步步变成今天的 Agentic Development Environment(ADE)——包含终端、原生代码编辑、多 agent 协同、云端编排。要看懂 2025-2026 年这个窗口爆出来的所有动作,得从它 2020 年的起点开始看。

下面是一次完整的横纵深研:纵向追 Warp 从 2020 到现在的发展线,横向对齐 Cursor / Claude Code / Windsurf / Devin / Cline 等竞品,最后把两条线交叉给出判断。

一、一句话定义

Warp 是一个把"终端"升级为"AI agent 工作台"的开发环境。它包含四件东西:现代终端、原生代码编辑与 review、单机与多 agent 协同、云端 agent 编排(Oz)。它的定位坐标在 CLI 型 agent(Claude Code / Codex CLI)和 IDE 型 agent(Cursor / Windsurf)之间,试图用终端形态统一两端。

二、纵轴分析:从 Rust 终端到开源 ADE

2.1 起点:一个 Google Docs 工程师对终端的意见

Warp 的创始人 Zach Lloyd 不是典型的终端黑客。他在 Google 做了约七年 Principal Engineer,是 Google Sheets 和整个 Google Docs 套件的工程负责人,之后去 Time 当 CTO,再之后创办过一个叫 SelfMade 的小创业公司。他不是那种"从小就泡在 shell 里"的人,反而在各种访谈里反复讲自己"用了一辈子终端,但一直不是用得特别好的那一种"——他习惯的是 Docs 那种有协作、有 UI、有版本历史的现代生产力工具。

这个背景很关键,决定了 Warp 从第一天起就不是一个为 CLI 高手造的工具,而是一个想让普通开发者也能享受到 CLI 高手生产力的工具。这在后来 agent 时代具备特别的意义——Warp 天然不抵触把终端"更像 IDE"、"更像协作软件"的改造,因为它从来就不是一个原教旨的 CLI 产品。

2020 年公司起步时,Zach 给 Warp 设计了两条腿:

  • 单机腿:用 Rust + GPU 渲染做一个性能和交互都现代化的终端。鼠标可用、多行编辑、命令块(Block)而非传统的 scroll buffer、开箱即用的自动补全和语法高亮。
  • 协作腿:模仿 Google Docs / Postman 的协作路径,做 Warp Drive——把命令、notebook、incident runbook、环境变量变成可以在团队内共享的对象。商业模式从一开始就押在团队版上。

这个组合在 2020-2022 年是"小众但精致"的存在。2022 年 4 月 Warp 正式进入公开 beta,同时对外公布了累计约 $23M 的 seed + Series A 融资,其中 Series A 的 $17M 由 Figma 创始人 Dylan Field 领投(GV、Neo、BoxGroup 等跟投)——这个领投人选在今天看挺有意思:不是典型的 devtools 基金,而是一个做设计工具的创业者。Warp 彼时还是"一个更好的 macOS 终端",和 iTerm2、Alacritty 并列在各种"最佳终端"清单里。

2.2 转折:ChatGPT 把终端的生态位重新洗牌

2022 年底 ChatGPT 发布,这对任何一家 IDE 类工具都是一次结构性事件,Warp 的反应比大多数终端产品都快。

2023 年 Warp 陆续把 AI 往终端里塞:年初上线 AI Command Search,把自然语言查命令直接做进命令行;同年推出 Agent Mode——一个嵌在终端里、能做多步推理和多步工具调用的 LLM 对话界面。Warp 是较早把 “Agent Mode” 作为一个正式产品特性名发布的工具,这个措辞后来在整个 devtools 圈普及开,成了一个近乎通用的 UI 名词。Warp 在 2023 年就已经把自己的产品定位从"更好的终端"悄悄挪到了"终端里的 agent 平台"。

同年 6 月,Sequoia 领投的 $50M Series B 到账,GV、Dylan Field、BoxGroup、Neo 跟投。这笔钱让 Warp 敢于同时押注两条纵深——“多玩家协作”(Warp Drive)和"AI 在终端里的原生体验"(Agent Mode),从一个精致小工具开始往平台级产品演化。

2.3 争议期:闭源、强制登录与 telemetry

2022-2024 这段时间,Warp 在开发者社区里的形象并不干净。

它是闭源的。它要求登录才能使用。它往 Segment 发 telemetry。在 Hacker News 的各种讨论里,几乎每条关于 Warp 的帖子底下,都有人贴同一组质疑:一个 VC 投的、闭源的、要求登录的终端,让它看见你命令行里的一切,这件事本身就不合理。

2022 年的 Show HN 评论里,这个顾虑是最主流的反对意见。Hacker News 和 r/commandline 上反复出现的一组说法是:“Warp 是闭源、要求登录、默认开 telemetry、一直在说要开源但迟迟不兑现的 VC 背景终端”。GitHub 的 warpdotdev/Warp 仓库 issue #1346 直接取名叫"Warp terminal spyware sending data to Segment"。

2024 年 2 月,Zach 发了一篇正面回应的博客,标题是"Open source and login for Warp"。这篇文章没有拐弯抹角,它承认 Warp 暂时不会开源,原因只有一个:商业风险。他直接引用 Elasticsearch 和 AWS 的案例,说担心更有资源的竞品拿着开源代码来打自己。登录这件事他的立场更硬——他认为为了让云端同步、Warp Drive、AI 配额计量能工作,一次性登录是必要的成本。

结果当然是社区继续骂,但 Warp 的用户量同时在涨。这说明了一件事:对于把终端当工作台的专业开发者,Warp 带来的体验增量已经足够覆盖"要登录、闭源"这层心理税。

同年 11 月,Warp 悄悄把强制登录取消了,改成可选——你可以完全不登录用它,只是享受不到云端功能。这是 Warp 第一次在意识形态问题上向社区让步。

2.4 Warp 2.0:把终端重写为 Agentic Development Environment

2025 年 6 月 24 日,Warp 2.0 发布。这一次的命名很讲究:不叫 Warp 终端 2.0,不叫 Warp AI,叫 Agentic Development Environment。

这是一次把自我定义改掉的发布。Zach 的原文里有一段话几乎是宣言:“软件开发正在从开发者用手写代码,快速演化为用 prompt 写代码。一年之内,手写代码会变得越来越罕见,连带 autocomplete 和手动输入命令都会。每个任务都从 prompt 开始,在 agent 的配合下完成。这不只是 coding,还包括 setup、deployment、debugging、incident management,一切都会 agentic。”

Warp 2.0 的产品结构相应被拆成四块,官方称之为四支柱:

  • Terminal:保留原来的终端体验,主输入框(universal input)同时接受命令和 prompt。可以锁定在 command-mode 或 agent-mode,也可以让 Warp 自动识别来切换。
  • Code:SOTA 级的编码平台,首发时 SWE-bench Verified 71%,Terminal-Bench v0.1.1 52% 排名第一。原生文件编辑器、专门的 code review 界面、以及基于 o3 等推理模型的 planning 模式共同构成了编码栈(官方博客原文:“dedicated planning mode using state of the art reasoning models like o3”)。
  • Agents:把"一个 agent"拔高为一等公民。可以同时跑多个 agent,每个有自己的状态、权限、通知,在一个管理面板里统一观测。
  • Drive:团队知识库,MCP 配置、rules、命令、notebook、环境变量、prompt 都存在这里,既给人用也给 agent 用。

Warp 2.0 的技术细节值得展开一下,因为这直接关系到它能在 benchmark 上抢跑的原因。

它选择了单 agent 架构 + 聚焦工具集的路线,而不是时髦的多 agent 子代理协作。agent 通过 CLI 命令、MCP、Warp Drive、Codebase Context 四类途径收集上下文,通过 grep、glob 等工具 + 代码库 embedding 做检索。这个选择在 Warp 2025 年 9 月发的 SWE-bench 技术博客里被明确论证过:单 agent 加上扎实的工具抽象比引入子代理更稳定,子代理带来的上下文分裂反而拖累 benchmark 表现。

Context 管理上他们做了一堆细活儿:

  • task list:agent 自动生成并在运行中动态更新的待办清单。这替代了早期"一次性计划 + 僵硬执行"的 planning,让 agent 可以在运行中根据新信息调整路径。上线后光这一项就带来 2% 的 SWE-bench baseline 提升。
  • model-aligned summarization:上下文窗口满时,不用辅助 LLM 来压缩,而是让承载对话的同一个模型来做压缩。Prompt 里明确定义什么叫好的 summary,TODO 和 rules 被确定性保留,不受压缩影响,用最近一次 user-agent 回合来衔接压缩后的上下文。
  • diff 只回修改段 ±k 行:以前是文件编辑后把整文件返回给 agent,5000 行的文件改一行也要回 5000 行,吃 context 非常凶。改成只回修改段周围 ±k 行,既提质又省 token。
  • long-running command support:通过 pty 的读写给 agent 开了操作 REPL、vim、debugger 的权限。agent 运行长命令时,一部分工具调用会被临时屏蔽,避免它一边开着 vim 一边去写文件。

模型侧的演化也值得记一笔。Warp 2.0 首发时主模型是 Claude Sonnet 4,Opus 4 负责 planning;2025 年 9 月的 SWE-bench 更新里主力模型换成了 GPT-5,分数从 71% 抬到 75.8%;到 2025 年底 Warp 支持的模型已经扩到 20+,横跨 OpenAI、Anthropic、Google 三家,并开放 BYOK(自带 API key)。Warp 的逻辑很清楚:模型层在快速同质化,Warp 自己不下场卷底模,押注的是 harness——怎么组织上下文、怎么选工具、怎么 review diff、怎么权限管控,这些工程细节才是应用层的差异化。

权限模型是 Warp 2.0 里另一个被低估的硬件:

  • 可以决定是否自动接受 diff
  • 可以决定 agent 是否可以读本地文件
  • 可以决定 agent 是否可以运行命令
  • 可以设置命令 allowlist 和 denylist
  • 可以决定哪些 MCP 服务器不需要人工确认
  • 可以在任何时刻 pause 一个 agent

Warp 2.0 还明确了一个产品哲学判断:先把 agent 锁在本地,不是一开始就上云。官方博客原文是:“we intentionally started locally rather than having agents running around in the cloud, as cloud-based agents remove the human from the loop too early relative to the state of today’s technology and disempower developers”。这一点在 2026 年 Oz 的发布里会被重新审视——Warp 最终承认只在本地不够,云端编排和本地控制必须形成连续体。

2.5 Warp Code 与 Agents 3.0:review-first 的路线收敛

Warp 2.0 之后的半年里 Warp 做的事都围绕一个判断:瓶颈已经不是"agent 能不能写代码",而是"人能不能快到足以理解、控制、review agent 写出来的东西"。

2025 年 9 月发布的 Warp Code 就是这个判断的具象化:一个专门为 agent 生成 diff 设计的 code review 体验,一个轻量的原生文件编辑器(tab 切换、文件树、find-and-replace),再加上 Projects 概念与 WARP.md 规则文件,把团队级的 agent 行为约束统一起来。

WARP.md 这个设计值得注意。它和 OpenAI 生态的 AGENTS.md、Anthropic 的 CLAUDE.md、Cursor 的 .cursor/rules 并列,在仓库根目录写一份项目级的 agent 指导——技术栈、命令、约定、禁区——让 agent 进项目时有"本地知识"。Warp 同时兼容上述多种格式,不强制用户迁移到自己的标准。这是一个典型的"不和别人争标准"的姿态,直接把所有主流格式都认了。

2025 年 11 月的 Agents 3.0 做了两件事:

  • Full Terminal Use:agent 能像人一样使用终端,包括 REPL、debugger、全屏应用(vim / htop / k9s / tmux 等)。这是在 Warp 2.0 那套 long-running command 支持上的进一步扩展。做 computer use 的公司很多,Warp 的独特位置在于它做的是 terminal use,而 Warp 本身就是终端,等于 agent 运行在宿主自己的进程上下文里,对 pty 和 ANSI 控制序列的理解比外挂式 computer use 精确一个量级。
  • Slack / Linear / GitHub Actions 集成:让 agent 可以被外部事件触发,不再只能是开发者坐在键盘前敲 prompt。这是在为两个月后的 Oz 发布铺路。

到 2025 年底 Warp Wrapped(年度回顾)披露的数据:agent 编辑约 32 亿行代码,索引超过 12 万个代码库,diff 接受率 96%+,写出超过 10000 个 PR、解决约 940 个 issue,模型调用累计消耗 tens of trillions 量级的 token。

2.6 Pricing 的暗涌

这条线必须单独讲,因为它揭示了 agentic 产品真正的商业困境。

Warp 早期的定价是经典 SaaS:订阅 + 每月固定请求额度,档位分 Pro / Turbo / Lightspeed。这套结构是按"平均用户的平均用量"来校准的,前提是大部分用户用不满自己买的额度。Warp 2.0 发布时(2025 年 6 月)为了庆祝把各档额度大幅上调——Pro 月度 AI 请求从 1000 提到 2500,Turbo 从 3000 提到 10000,Lightspeed 无限。

但这个模型在 agent 时代开始穿底。单用户的真实消耗随 Agent Mode、Agents、多 agent 并行一路走高,单次 agent 运行就可能吃掉旧 Pro 档一大半额度。Warp 在官方博客里承认了这个结构性问题:「许多用户用不完买的额度」;「用完额度后的按量 overage 价格是基础额度的 8 倍,用户体感像被宰」;「在满负荷使用下,这套计划在经济上不可持续,而且用户用得越多,Warp 亏得越多」。

2025 年 10 月 30 日 Warp 推出了新的定价体系——Build plan,$20/月起,含 1500 credits,同时废弃 Pro / Turbo / Lightspeed 三档;Business plan 对齐为 $50/月含同样额度,加上 SSO 和强制 ZDR(零数据保留);overage 改名为 Reload Credits,价格砍到原来的 50%,可跨 12 个月累计。BYOK 同步开放到 Build 和 Business 档,允许直接接自己的 OpenAI / Anthropic / Google API key,AI 账单由模型厂直接出,Warp 只收 harness 的钱。

社区反应分两派。一派是老 Turbo / Lightspeed 重度用户,抱怨新档位的基础额度相比自己原来的实际消耗缩水严重,r/warpdotdev 和 GitHub issues 里有一波针对这次改制的不满贴。另一派——按 Warp 自己披露的数据,超过一半的用户月度成本会下降或上涨不超过 $2——对变更无感。

这是一次把"不可持续的低价档位"砍掉、强迫重度用户走 BYOK 或 Reload 的动作。它的商业逻辑是清楚的:Warp 不跟模型厂商比补贴——Anthropic 有 Claude Code、OpenAI 有 Codex CLI、Google 有 Gemini CLI,这三家都能把模型调用成本压到第三方打不过的水平。Warp 要做的事是把自己从"AI 定额 SaaS"改成"harness + 协作平台 + 按实际用量的 credits"——卖工程和体验的溢价,不卖模型额度。

这是一个务实但危险的选择。Claude Code 有模型厂内部补贴,Cursor 有近 300 亿美金估值撑腰,Codex CLI 是 OpenAI 亲儿子。Warp 必须赌重度开发者愿意为 harness 本身每月多付 20-80 美元,而不是跑去用某家模型厂的"几乎免费"方案。这个赌注是否能继续赢,到 2026 年就是现在进行时。

2.7 Oz 与开源:2026 年的两次大跳

2026 年 2 月 10 日,Warp 发布 Oz——定位是"运行、管理和编排 coding agent 的云端平台"。Zach 在发布博客里用的类比是 “Vercel / Supabase for deploying agents”:想部署和 orchestrate 多个 agent 的开发者不应该自己再搭一套云端脚手架(沙箱、会话追踪、steering、团队可见性),Oz 把这些都做成现成的。

Oz 的设计哲学在官方博客里被列成七条原则:起点在终端(终端是 agentic 开发天然的 control plane)、programming-first(开发者拥有完整控制权)、开箱即用不用自己搭脚手架、对 orchestration pattern 保持 agnostic(不管未来的主流是 team lead、teammates 还是 Ralph Wiggum 那种并行加权,Oz 都不强加一种)、可以脱离 Warp 桌面端独立使用(通过 CLI / API / Web)、和 Warp 终端有 first-class 集成、面向团队而非个人。最后一条隐含的对标很明显——Claude Code 的产品形态和权限模型偏向个人开发者场景,Oz 把团队级的 session 共享、环境共享、权限编排作为一等公民。

一个 Oz agent 的生命周期长这样:

  • 环境:Docker 容器 + 一个或多个 git repo + startup 命令。环境可在 Warp 里用 /create-environment slash command 创建,也可以用 Web app 或 CLI;设置通常不超过五分钟,多数工作由 agent 自己完成。环境默认在团队内共享,可以塞任意多个 repo 让 agent 有跨仓库上下文。
  • 触发:可以在 Warp 桌面端直接开、用 oz CLI 本地跑、通过 REST API / SDK 程序化启动、在 Oz Web app 上启动、按 cron 时间表自动触发。运行位置默认在 Warp 托管的云基础设施上,企业版支持 self-host。
  • 自动追踪:任何 Oz 运行都会自动产出一个 Agent Session Sharing 链接,团队成员可以实时查看 agent 的进展并随时接管;产出的 artifacts(PR、分支、plan)都在 session view 里,也可通过 CLI / API 获取。
  • Skill 即 agent:任何 Skill 都可以作为 agent 启动,兼容 Claude Code、Codex 等的 skills 格式,也兼容项目内 .agents/ 目录下的自定义 skill。agent 启动时指定一个 Skill,运行期间可调用环境里所有其他 Skills。

这是一个很大方的技术选择——Warp 没有为自己的编排层另起炉灶,而是直接复用了其他厂商已经建好的 skills 生态。

Warp 内部把 Oz 用得很深。Zach 在发布博客里给了三个例子:

  • 把 mermaid.js 移植到 Rust。Warp 用自研 Rust UI 框架没法直接用 mermaid,他们用 Oz 按图表类型并行派 agent,每个 agent 用 computer use 把自己的输出跟原版 mermaid 的结果做视觉对比。
  • fraud-bot。免费档的 AI 额度吸引了刷量,一位工程师用 Oz 做了一个 agent:每 8 小时扫一遍新注册和可疑使用模式,不光识别还直接写 PR 去堵漏。一次早上的运行就拦下了"近 6 万美元"的欺诈性 Warp 用量。
  • PowerFixer。一个 CLI 应用,让工程师从 GitHub 上看 issue、去重、一键派 agent 修 bug,session sharing link 让整个团队能看到 agent 正在做什么。

这些内部用法的总结是一条让人不太敢信但官方明说的数据:Oz 现在写 Warp 60% 的 PR,这个比例还在涨。Warp 同时开源了一批内部在用的 skills 作为参考。

Oz 的定价与 Warp 的 Build / Build Business / Max 档位绑定——每档送一部分 cloud agent credit,超出按量计费,AI 使用和 compute 使用都计入同一个 credit 池。发布当月 Build 以上档位送 1000 bonus credits。Zach 在发布博客结尾的一句话是:“2025 is the year of interactive agents. 2026 is the year of agent orchestration.”

两个月后,2026 年 4 月 28 日,Warp 做了五年里最反直觉的一件事:客户端全部开源,AGPLv3 许可(UI 框架 warpui_core 用 MIT),OpenAI 成为 founding sponsor,Oz 的 agentic 开发流由 GPT 驱动。

这里有几点值得拆开看。

第一,为什么是现在。Zach 在开源博客里给了两个理由。其一是业务理由:Warp 的瓶颈已经不是写代码,而是"围绕代码的 human-in-the-loop"——写 spec、验证行为、review。把仓库开出来,让社区接手管理 agent 做实现,这是他们内部已经验证过的路线(Oz 写 60% PR 就是证据),向外复制一下。其二是站位理由:目前市面上没有一个"功能完整的开源 ADE",Warp 想抢占这个生态位,不让闭源的 Cursor 和 Claude Code 独占赛道。

第二,开源模型的尴尬之处。AGPLv3 对商业使用有很强的约束,其他公司想 fork 一个 Warp 去卖钱会被许可证限制住。Zach 2024 年那篇"暂不开源"的博客里提到的"担心 Elasticsearch + AWS 那种事",到 2026 年用 AGPL 解决了。这是一个非常成熟的开源策略,不是社区浪漫主义,是经过商业计算的防御性开源。

第三,OpenAI 的介入很有意思。founding sponsor 的身份意味着什么,目前披露不多,但 Oz 的 agentic 开发流明确用 GPT 模型。在 OpenAI 以 $3B 收购 Windsurf 之后,它还跑来赞助 Warp 的开源,说明 OpenAI 的策略不是"只投一个"而是"广撒网",尤其是在 IDE / 终端 / agent 平台这些靠近开发者的生态位上。Warp 接受这个赞助,等于把自己绑到了 OpenAI 的战车上——GPT-5 已经是 Warp SWE-bench 的主力模型,这条绑定关系会越来越深。

开源 + Oz 这一套组合拳的真正含义是:Warp 认定自己单靠内部团队打不过 Cursor 和 Anthropic,索性把产品变成一个平台,用"社区 + Oz + OpenAI"这三股力量对冲头部玩家的资源优势。

三、横轴分析:2026 年的 AI coding 工具图谱

把镜头从 Warp 单独拉开,看 2026 年春天的整张图谱。这是一个非常拥挤的赛道,每个玩家的位置都不太一样。

3.1 Cursor:IDE 派的主流,钱最多

Cursor 背后是 Anysphere。2025 年 11 月 13 日完成的 Series D 融资 $2.3B,post-money 估值 $29.3B(CNBC 报道)。这是整个 AI coding 赛道里现金储备最多的一家。

产品形态上 Cursor 就是一个 fork 过的 VS Code 加上 agent 能力。它是 IDE 派的代表——主界面是代码编辑器,agent 以 chat panel 或 agent mode 的方式嵌在里面。优势是对 VS Code 生态的完整继承:几十万个 extension、调试器、语言服务、UI 细节,都是现成的。用户的学习曲线是零,付 Pro $20/月或 Ultra $200/月的订阅费换的是在熟悉环境里多一个能干的 AI,Ultra 档按 Cursor 自己的说法相比 Pro 的 frontier 模型调用额度多 20 倍。

Cursor 的弱点在 agent 化的彻底性上。它的底子是 2015 年的 VS Code,而 VS Code 的交互范式是"人在 hand-edit"。Cursor 在这个底子上长出了 composer、agent mode、background agent,但整个 UI 的重心仍然是代码编辑。当开发者把主要时间花在"给 agent 写 prompt、看它做什么、review diff"的时候,Cursor 的界面其实在浪费屏幕空间给一个越来越少被直接用的编辑器。

Zach 在播客里说了一句有点挑衅的话:"如果你看 Cursor 的最新版本,它的主界面已经越来越像 chat interface,而不是编辑器。它正在往 Warp 的方向走。"这里面的判断是:IDE 派和终端派在向中间聚拢,Cursor 的 IDE 底子越来越像历史包袱。

3.2 Claude Code:CLI 派的扛把子

Claude Code 是 Anthropic 官方的 CLI agent,在 Zach 自己口中被反复提及为"Warp 最像的竞品"。

它的形态是一个运行在终端里的 CLI 应用。在任何终端(包括 Warp)里敲 claude,就进入一个交互式 session。它的扩展生态已经非常成熟,skills、hooks、plugins、slash commands、subagents、MCP 服务器、CLAUDE.md 的 memory 机制,这是目前业界最完整的一套 agent 工程化扩展体系。Anthropic 把很多内部最佳实践直接做成官方 skill 发出来,社区也有 awesome-claude-code 这样的 curated list。

Claude Code 的优势有三条:

  • 模型直连:Anthropic 自己的 frontier model 直接给自己人用,响应延迟、上下文长度、工具调用准确性这些维度,Claude Code 天然有 first-class 体验。
  • 极度工程化的扩展系统:skills 这套设计让"复杂任务模式"可以被沉淀成可复用的资产,hooks 让工作流可以编程化介入,slash commands 提供快速入口。这是目前业界最完整的 agent 扩展生态。
  • 补贴能力:作为模型厂商自己的产品,Claude Code 能把使用成本压到第三方做不到的水平。

它的弱点是 CLI 形态自身的天花板。CLI 应用跑在别人的终端里,UI 表达能力就被宿主终端决定了。原生的 diff 编辑器、跨多个 session 的 agent 管理面板、多个 agent 并行跑时的状态总览,这些在 Claude Code 里都没法做,因为它根本没有画 GUI 的画布。把 Warp 和 Claude Code 摆在一起,差别不在 agent 智能,而在界面表达力——Warp 有自己的 UI 层,Claude Code 只有 terminal stdout。

Anthropic 显然也在往界面层补课。Claude Code 的 VS Code 扩展在 2025 年下半年已经有完整形态,但主产品形态始终是 CLI,这意味着它和 Cursor 的正面冲突仍会发生在模型端和订阅补贴端,而不是 UI 端。

3.3 Windsurf:被切成两份的 IDE

Windsurf(原名 Codeium)在 2025 年经历了整个 AI coding 赛道最戏剧性的一次收购拉锯。

2025 年 4 月底到 5 月初,彭博社率先披露 OpenAI 计划以约 $3B 收购 Windsurf,这本会是 OpenAI 历史上最大的一笔收购。两个月后的 2025 年 7 月 11 日,这笔交易宣告破裂。同一天,Google 宣布通过非独占许可协议支付约 $2.4B 获得 Windsurf 核心技术授权,并把 Windsurf CEO Varun Mohan、联合创始人 Douglas Chen 以及 R&D 核心团队直接挖进 Google DeepMind 去做 agentic coding。三天后的 2025 年 7 月 14 日,留下来的 Windsurf 剩余资产——IP、产品、商标、品牌以及剩余员工——被竞争对手 Cognition AI(Devin 的母公司)收购。

这一连串动作把 Windsurf 实质上拆成了两份:最值钱的核心团队 + 技术授权去了 Google,产品壳子和剩余团队归了 Cognition。Windsurf 这个 IDE 品牌还在,但它背后已经不再是原来那家试图对标 Cursor 的独立公司。

Windsurf 的技术差异化曾经主打 Cascade 这个 agent runtime 和"agent + human-in-the-loop"的实时共编辑体验,产品底子和 Cursor 一样是 fork VS Code + agent。在 Cognition 接手后,Windsurf 的定位出现了一个微妙的矛盾——Cognition 自己的主力产品 Devin 走的是完全云端自主 agent 的路线,Windsurf 走的是本地 IDE 路线,两者哲学相反,整合起来并不容易。到 2026 年 Q1,Windsurf 作为 Cognition 产品线里"IDE 形态的那一支"继续运行,但相比独立时期的势头明显弱了。

对整个赛道的信号是:IDE 派的独立玩家很难靠自身造血撑下去。Cursor 能撑下去是因为抢到了第一个心智位 + 连续大额融资;Windsurf 晚了半年,就只能被拆解分食。

3.4 Devin:云端自主 agent 的极端实验

Cognition AI 做的 Devin 是一个完全不同的物种。它不是"让开发者更好地使用 agent",而是"一个能独立工作的 AI engineer"。

Devin 最早 GA 时的定价是 $500/月起的团队套餐;2025 年 4 月 3 日推出 Devin 2.0,改成按 ACU(Agent Compute Unit)计费的订阅 + 用量模型:Core 档 $20/月(含一部分初始 ACU),超出后 $2.25 per ACU;Team 档更高月费、ACU 单价降到 $2.00。按 Cognition 官方说法,1 个 ACU 约等于 15 分钟的 Devin 活跃工作时间。从 $500/月一刀切降到 $20/月起,这是一次幅度相当大的定价重构,官方解释是要降低尝鲜门槛。

Devin 的产品形态是一个云端浏览器界面,开发者在上面给 Devin 派活,它自己去做、自己调试、自己写 PR。它试图完全替代"人 + 键盘 + 代码"这套传统流程。

从独立 benchmark 和社区反馈看,Devin 目前还不在完成度的第一梯队,但它代表了一条极端路线:完全自主、完全云端、完全不要求人在 loop 里。Warp 的 Oz 是这条路线的克制版——Oz 也把 agent 搬到云上,但明确保留了 handoff 到本地的机制,主打"人类保持控制"的哲学。

Zach 在这一点上态度很鲜明:「cloud-based agents remove the human from the loop too early」。Warp 的 Oz 是"云端 + 本地可接管"的折中,Devin 是"纯云端不可接管"的激进。

3.5 其它坐标:Aider / Cline / Zed / Amp / Droid / Kiro

剩下的玩家要么规模较小,要么形态特殊,简单扫一遍:

  • Aider:Paul Gauthier 维护的开源纯 CLI agent,Python 写的,轻量、可控、极客友好。它的存在提醒了一件事:一个好的 agent 本质上只需要一个终端 + 一堆工具 + 一个好模型,花哨的 UI 不是必须的。对不愿意付订阅费、愿意自己管 API key 的开发者很有吸引力。
  • Cline:开源的 VS Code 扩展,人在 loop 里的派别,每一步都要 approve,适合谨慎型用户。
  • Zed:Rust 写的开源代码编辑器,由 GitHub Atom 的核心团队 Nathan Sobo 等人重新出发创立。2025 年在 Agent Panel 上做了大量工作,推出了 Agent Client Protocol(ACP)这个开放标准来连接各种 agent。和 Warp 是"同代 Rust 派",但 Zed 明确走编辑器路线而非终端路线。
  • Amp:Sourcegraph 推出,背靠 Sourcegraph 原有的代码搜索能力,强调 deep mode 的自主性。
  • Droid:Factory AI 推出,主打 CLI 形态的 agent,在 Terminal-Bench 上常年占据前列,是 Warp 在命令行 agent 这条赛道上最直接的正面对手。
  • Kiro:Amazon 在 2025 年推出的 spec-driven 派 agentic IDE,强调在 agent 做事前先把 spec 写死,天然适配企业开发场景,属于 AWS 生态的官方答案。

把这些放在同一张坐标上,X 轴是"人在 loop 里的深度",Y 轴是"产品的底子从哪里来",大致是这样的分布:

  • 最左上(人深入 loop + IDE 底子):Cline、Cursor 的 manual mode
  • 右上(人浅入 loop + IDE 底子):Cursor agent mode、Windsurf Cascade、Zed agent
  • 左下(人深入 loop + 终端底子):Aider、Claude Code 的 review mode
  • 右下(人浅入 loop + 终端底子):Claude Code 的 auto mode、Droid、Warp Agent Mode
  • 最右(人基本不在 loop):Devin、Warp Oz 的全自动触发

Warp 的定位是横跨从 Agent Mode 到 Oz 的整条右侧光谱,这是它相对其他玩家的独特之处。它既做 Claude Code 式的本地交互 agent,也做 Devin 式的云端自主 agent,中间还有 IDE 派的 code review 能力。这是一个贪心的定位,好处是覆盖广,坏处是每个子场景都得面对专门玩家的正面竞争。

3.6 benchmark 层面的实际位置

这部分要非常小心,因为 benchmark 有版本、有时效、有厂商自测的 bias。

Warp 官方博客里公布过的分数:

  • Terminal-Bench v0.1.1(2025 年 6 月):52%,提交时排名第一
  • SWE-bench Verified(2025 年 6 月):71%,排名进入 top 5
  • SWE-bench Verified(2025 年 9 月,GPT-5 主模型):75.8%
  • Warp Wrapped 里引用的 2025 年底数据:Terminal-Bench 61.2%、SWE-bench Verified 75.6%

到 2026 年 Q1-Q2,Terminal-Bench 升级到 2.0 版本,任务难度重新标定,榜单完全洗牌。tbench.ai 官方榜目前前列的组合:OpenAI 自家的 Codex agent 配 GPT-5.5 在 82.0% 左右排第一,ForgeCode 配 GPT-5.4 在 81.8% 紧随其后,TongAgents(BIGAI)配 Gemini 3.1 Pro 在 80.2%,ForgeCode 配 Claude Opus 4.6 在 79.8%,Factory AI 的 Droid 配 GPT-5.3-Codex 在 77.3%。从 harness 提供方来看,独立 agent 厂商(ForgeCode、Factory Droid、TongAgents)已经在 harness 工程上抢到和模型厂自家 agent 同一档的位置。Warp 自己的 Agents 3.0 / Oz 组合目前没有在 Terminal-Bench 2.0 的官方榜上提交过独立条目,需要通过 Wrapped 或产品博客披露的自测数据间接比对。

真正有信号价值的是:在 Warp 2.0 发布的那个时点,它的 harness 让 Sonnet 4 + Opus 4 的组合在 SWE-bench Verified 上冲进前五;三个月后换成 GPT-5 主模型,harness 几乎不动的情况下分数再抬 4.8 个百分点。两次提交的核心改动——task list、model-aligned summarization、diff 只回 ±k 行、长时命令支持——都是纯 harness 层面的工程。Warp 自己的 SWE-bench 博客里明确给出过 task list 带来 2% baseline 提升的数字,这是一个可以精确归因到工程动作的增量。

换句话说:模型在变强,harness 的绝对价值在下降;但 harness 的相对差异仍然存在,而这是 Warp 这类应用层产品护城河的核心部分。在 2026 年这个阶段,再强的底模也只能解决 75-85% 的 SWE-bench 任务,剩下 15-25% 的差距主要取决于 context 管理、工具设计、权限粒度、回滚机制——这些全都是 harness 工程。

四、横纵交汇:几个我自己的判断

这部分是整篇里的观点密度段落。前面是事实,这里是判断。

4.1 终端作为 agent workbench 到底成不成立

这是整个 Warp 叙事的最底层命题。Zach 给的论据有四条:时间基、纯文本、天然多路复用、自带日志。这四条对的,但不完整。更关键的一条是,终端是人机交互里唯一还保留 process tree 概念的地方。IDE 的交互对象是文件和 UI event,终端的交互对象是进程和信号。agent 本质上就是一个长时运行的进程,需要起其他进程、等它们、杀它们、收集 stdout/stderr,这些在 shell 里是第一等公民,在 IDE 里是要特意去搭的二等公民。Claude Code 跑在 Warp 里比跑在 iTerm2 里体验好也是同理——Warp 把进程理解做到了 block 级别,而不是传统终端的字符流级别。

反面同样成立:终端的天花板在图形化反馈上。agent 做完事需要 UI 来 review,而 diff view、树形导航、可交互 element 选择本质都是 GUI 范式。Warp 自己也意识到了这件事,加了原生代码编辑器、文件树、code review 面板。加到最后,它长得越来越像一个"以终端输入为中心的 IDE"。

合理的结论是:终端作为 agent workbench 的底层假设成立,但单纯的终端不够,需要一个以终端输入为中心、同时具备 IDE 图形反馈能力的新形态。Warp 在往这个形态走,Cursor 也在从另一头往这个形态走——两条线起点不同,但很可能收敛到同一个物种上。

4.2 Warp 的真正护城河是什么

Warp 的护城河既不是 Rust,也不是 GPU 渲染,更不是 benchmark 上的几个百分点。这些都是可复制的工程差异。真正难复制的是它跨越 local / cloud / multi-agent 的连续体验

Cursor 有 local agent,但它的云端 background agent 和本地 agent 是两套分离的体验,接续不顺畅。Claude Code 只有 local,云端编排完全缺位,Oz 这种级别的平台化能力它没做过。Devin 只有云端,本地接管是二等公民。

Warp 的 Oz 是目前唯一把这条路径做成连续体的产品:本地可以在 Warp 桌面里直接开 agent,混合场景是本地敲 oz <task> 把任务扔到 Warp 云或自托管环境,纯云端可以从 Web app、API、Slack 触发完全不需要本地参与,任何一个云端运行的 agent 也都可以一键 handoff 回本地 Warp 继续。只要 Oz 这一层的工程质量站得住脚,Warp 就有一条其他玩家短期内补不齐的护城河。

4.3 开源的真实算计

4 月 28 日这次开源听起来像理想主义的胜利,其实是一次非常冷静的商业决策。

先看许可证:AGPLv3 对 client 主体,MIT 只给 UI 框架。AGPL 的网络反向衍生条款意味着任何公司想在云端商业化 fork 的 Warp 都必须把修改也开源。这是"防御性开源"的典型做法,MongoDB 和 Elastic 都走过这条路。Warp 在开源社区会被一部分原教旨主义者喷"AGPL 不是真开源",但对 Warp 商业利益而言,这是最优解。

再看 founding sponsor。OpenAI 作为开源发布的 founding sponsor 出面,Warp 在官方博客里引用了 OpenAI 工程团队成员 Thibault Sottiaux 的表态,大意是:开发者需要更强大的、agent-native 的工具来释放 AI 在 coding 上的潜力,Warp 正在围绕 GPT 等前沿模型打造一个首选的 agentic 开发环境,开源这一步会让整个开发者社区受益。OpenAI 的赞助既包括资金,也包括对 GPT 模型在 Oz 上深度适配的工程配合。

这等于 Warp 用开源姿态换了三件事:OpenAI 的资金支持、GPT 模型的深度优化和早期访问、在 Anthropic-Claude Code / Google-Gemini CLI 之外的第三极站位。Cursor 选了"谁家模型都用"的中立路线,Claude Code 是 Anthropic 亲儿子,Warp 这次选的是"和 OpenAI 深度绑但不自限"的混合策略——Warp 仍然会在产品里同时支持 Claude、Gemini 等主流模型,但旗舰编排流用 GPT。这不是技术问题,是生存策略。

“agent-first 开源 workflow” 这个设计也很典型:社区提 idea,Oz 执行实现,Warp 团队审核方向。这相当于把 Warp 的研发能力众包了一层,但保留了方向盘。跑通了 Warp 就拿到一个自我改进的开发飞轮;跑不通也只是退回原来的闭源模式,下行风险可控。

4.4 为什么 2026 年会是 agent orchestration 的年

Zach 在 Oz 发布博客的结尾下了这个判断:“2025 is the year of interactive agents. 2026 is the year of agent orchestration.”

这个判断基本成立,但需要补一个更底层的因果。interactive agent 走向 orchestration 的根本原因不是工具厂商想卖新东西,而是单 agent 的边际产出开始递减——一个 agent 做一个任务已经接近中等开发者的水平,再强的模型提升也难以从"完成 75% 的 SWE-bench 任务"跃到"完成 100%"。下一个台阶不是让一个 agent 更强,而是让多个 agent 协同、让团队级 agent 可观测可调度可复用。Oz 这类平台在 2026 年集中涌现,解决的不是 agent 不够聪明的问题,而是"一个 agent 再聪明也不够用"的问题。

orchestration 层本身同样面临同质化风险。Vercel for agents 这个隐喻意味着未来会出现若干个功能类似的 Vercel,Warp 的 Oz、Cognition 的 Devin Cloud、GitHub 的 Coding Agent、Sourcegraph 的 Amp Cloud 都在做同一件事。这一层最后谁能吃到主要份额,取决于两件事:谁握有开发者入口(Warp 有先发优势)和谁能和仓库、CI、项目管理系统做最深的集成(GitHub 有结构优势)。Oz 真正要担心的对手不是 Claude Code,是 GitHub 自家正在长出来的 agentic coding platform。

4.5 Warp 最危险的三件事

作为收尾,点三件 Warp 现在其实没解的难题。

第一,定价模型可持续性。按量定价解决了毛利率问题,但同时把价格敏感度最高的 vibe coding 用户赶到了竞品那里。这批用户今天不是付费主力,但他们是明天的开发新兵。Warp 在"pro 用户愿意多花钱"这个假设上下注,这个假设如果被 Claude Code 或 Gemini CLI 的低价策略打穿,Warp 的用户增长曲线会失速。

第二,benchmark 的漂移。Warp 2.0 发布时的那套 harness 很强,但到 2026 年 Q1,更强的底模已经让其他玩家的分数追上来。Warp 在 Terminal-Bench 2.0 上需要持续发新的 benchmark 博客来维持"技术领先"的叙事,任何一次分数被追平或反超,都会对它的定价逻辑产生压力。

第三,open source 的治理难度。开源 client 是一次性动作,但维持一个"agent-first 的协作仓库"是长期工程。社区的 PR 质量控制、Oz 生成代码的可信度审查、maintainer 团队的 bandwidth,这些都是新问题。Warp 之前没做过大规模开源项目的治理,踩坑是必然。

这三件事任何一件处理不好,都可能让"Warp 作为 ADE 第一入口"的故事变得不完整。

五、信息来源

官方

  • Zach Lloyd, “Introducing Warp 2.0: the Agentic Development Environment”, warp.dev blog, 2025-06-24
  • Zach Lloyd, “Warp is now open-source”, warp.dev blog, 2026-04-28
  • Zach Lloyd, “Introducing Oz: the orchestration platform for cloud agents”, warp.dev blog, 2026-02-10
  • Zach Lloyd, “Open source and login for Warp, the collaborative terminal”, warp.dev blog, 2024-02-22
  • Hong Yi Chen, “Warp Wrapped: 2025 in Review”, warp.dev blog, 2025-12-30
  • Jack Nichols, “How we scored #1 on Terminal-Bench (52%)”, warp.dev engineering blog, 2025-06-25
  • Suraj Gupta and Daniel Peng, “Warp scores 75.8% on SWE-bench Verified”, warp.dev engineering blog, 2025-09-01
  • Warp docs, “Oz platform” and “Cloud agents overview”, docs.warp.dev
  • GitHub, warpdotdev/warp repository, AGPLv3 license, 2026-04-28 onwards

访谈与播客

  • Sonya Huang, “Making the Case for the Terminal as AI’s Workbench: Warp’s Zach Lloyd”, Sequoia Capital Training Data podcast
  • The New Stack Agents, “How Warp Went From Terminal To Agentic Development Environment”

第三方报道与分析

  • TIME, “Best Inventions of 2025: Warp Agentic Development Environment”
  • CNBC, “AI startup Cursor raises $2.3 billion funding round at $29.3 billion valuation”, 2025-11-13
  • Reuters, “OpenAI agrees to buy Windsurf for about $3 billion, Bloomberg News reports”, 2025-05-06
  • VentureBeat, “Devin 2.0 is here: Cognition slashes price of AI software engineer to $20 per month from $500”
  • RedMonk, “A New Take on the Terminal with Zach Lloyd”, 2025-12-16
  • Forge Global, Warp funding overview
  • Terminal-Bench 2.0 leaderboard, tbench.ai
  • SWE-bench leaderboards, swebench.com

社区与用户反馈

  • Hacker News discussions on Warp(items 30921231、37810716、42247583、44704043 等)
  • GitHub issues in warpdotdev/Warp:telemetry 相关(#1346)、WARP.md 相关(#7199)、BYOK 相关(#2788)等
  • r/warpdotdev subreddit:pricing 与 billing 投诉集合

独立复核标注

  • “某全球咨询公司生产力提升 240%”:出自 Warp 2.0 官方博客自述数据,无独立第三方核实来源。本文在正文中未直接引用这一具体数字。
  • “Oz 现在写 Warp 60% 的 PR”:出自 Warp 官方博客,属于厂商自述,无外部审计。文中已标注"官方明说"以提示来源性质。
  • “fraud-bot 一次早上的运行拦下近 6 万美元欺诈性用量”:出自 Oz 发布博客,同上。
  • Terminal-Bench 2.0 榜单数据截至 2026 年 Q2 的 tbench.ai 官方页面。SWE-bench Verified 分数均来自 Warp 官方博客与 swebench.com 官方榜单的交叉对齐。
  • Cursor Series D $2.3B @ $29.3B post-money 估值以 CNBC、Cursor 官方博客双源核实。
  • Windsurf 拆分的三组金额(OpenAI $3B 意向、Google $2.4B 许可、Cognition 接手剩余资产)以 Reuters、CNBC、New York Times 多源核实。