引言
如果你在两年前问一个开发者”AI 编程工具”是什么,他大概会说”Copilot,就是那个自动补全的”。
今天,这个问题的答案复杂多了——不是因为工具变多了,而是因为底层范式变了。
我们正从”代码补全”进入”自主编程 Agent”的时代。 这不是量变,是质变。
这篇文章会带你系统理解这个转变是什么、为什么重要、当前有哪些主要工具、以及如何真正学会用好它们——而不只是追着工具更新跑。
一、什么是 Coding Agent?
1.1 三代 AI 编程工具的进化
理解 Coding Agent 最好的方式,是把它放在历史演进中看。
第一代:代码补全(2021–2022)
以 GitHub Copilot(2021年6月发布)为代表。它的工作方式很简单:你在编辑器里打字,它预测接下来的几行。被动、局部、无状态。你是发动机,它是油门助力。
第二代:对话式编程(2022–2024)
ChatGPT(2022年11月)的出现让”和 AI 聊着写代码”成为可能。Cursor、Codeium 等工具把对话嵌入编辑器。这一代的进步是你可以用自然语言描述意图,但 AI 还是只能”建议”——你需要手动把代码贴进去、手动运行、手动反馈。AI 是顾问,你还是执行者。
第三代:自主编程 Agent(2025年至今)
这是当前我们所处的阶段。Claude Code(2025年2月24日)、OpenAI Codex(2025年5月)的相继发布标志着转折点——AI 可以直接操作你的代码库。它能读文件、写文件、执行命令、运行测试、看测试结果再修 bug,然后提交代码。
你不再是执行者,你是任务下达者和审查者。
1.2 Coding Agent 的运行本质
所有 Coding Agent,无论名字多么不同,底层都在运行同一个循环:
用户 Prompt
↓
LLM 推理(想下一步)
↓
工具调用(读文件 / 写代码 / 执行命令 / 搜索)
↓
观察结果(命令输出 / 测试结果 / 文件内容)
↓
继续推理(还需要做什么?)
↓
直到完成 → 输出给用户
这个”推理 → 执行 → 观察 → 推理”的闭环,叫做 Agent Loop。
理解这个循环,你就理解了所有 Coding Agent 的本质,无论界面是终端还是 Web,无论底层是 Claude 还是 GPT-5。
1.3 和前两代工具相比,Coding Agent 的核心飞跃
| 能力 | 第一代(补全) | 第二代(对话) | 第三代(Agent) |
|---|---|---|---|
| 理解自然语言意图 | 有限 | ✅ | ✅ |
| 访问真实代码库 | ❌ | 有限 | ✅ |
| 自主执行命令 | ❌ | ❌ | ✅ |
| 运行并解读测试 | ❌ | ❌ | ✅ |
| 多步骤自主迭代 | ❌ | ❌ | ✅ |
| 提交 PR / CI 集成 | ❌ | ❌ | ✅(部分工具) |
二、主流工具概览
当前(2026年2月)最值得关注的五款工具:
| 维度 | Claude Code | Codex | OpenCode | Gemini CLI | Antigravity |
|---|---|---|---|---|---|
| 出品方 | Anthropic | OpenAI | 开源社区 | Google DeepMind | |
| 形态 | CLI + Desktop | 云端 App + CLI | CLI + Desktop | CLI | IDE 内嵌 Agent |
| 开源性 | ❌ 闭源 | CLI 开源 | ✅ MIT | ✅ Apache 2.0 | ❌ 闭源 |
| 核心模型 | Claude Opus 4.6 | GPT-5.3-Codex / Spark | 75+ 供应商可选 | Gemini 3.1 Pro | Gemini(可扩展) |
| 上下文窗口 | 200K → 1M(beta) | 无公开上限 | 取决于模型 | 1M token | 1M token |
| SWE-Bench 评分 | 未公开 | 56.8% Pro | 取决于模型 | 未公开 | 未公开 |
| GitHub 集成 | ✅ 官方 App + CI | ✅ PR 提案 | ❌ | ❌ | 部分 |
| MCP 支持 | ✅ + Plugin 生态 | ❌ | ✅ | ✅ + Extension | ✅ |
| 浏览器自动化 | ❌ | ❌ | ❌ | ❌ | ✅ 原生 |
三、我的综合排序
排序基于”中高级开发者、复杂编码任务”场景,不含成本因素的干扰。
| 排名 | 工具 | 核心理由 |
|---|---|---|
| 🥇 1 | Claude Code | 推理最稳定、工程生态最完整,Hooks + Agent Teams + GitHub CI 无可替代 |
| 🥈 2 | Codex | GPT-5.3 编码性能与 Claude 并列第一;Spark 的实时协作模式是行业首创 |
| 🥉 3 | Antigravity | 浏览器自动化 + 任务可视化的差异化工作流平台 |
| 4️⃣ | OpenCode | 模型自由度最高、成本最可控,质量上限取决于所选模型 |
| 5️⃣ | Gemini CLI | 1M 上下文是真实优势,但推理不稳定;适合补充而非主力 |
四、五款工具深度分析
🔴 Claude Code(Anthropic)
v2.1.26+,2026年2月 | 目前市场上综合工程能力最强的 Coding Agent
Claude Code 最大的差异化,是 Anthropic 把它定位为”协作式工程系统”而非单一工具:Hooks 系统让企业可以深度嵌入质量管控,Agent Teams 让多个实例并行协作,GitHub App 打通了从 Issue 到 CI 的完整研发链路。
核心优势
| 特性 | 说明 |
|---|---|
| Hooks 系统 | 在 agent loop 的 PreToolUse / PostToolUse / Stop 等时机注入自定义逻辑,可拦截、记录、修改 agent 行为——是 Plugin 体系的核心,也是企业级质量门控的基础 |
| Agent Teams | 多个 Claude 实例并行协作:一个重构代码,一个写测试,一个做审查,共享任务列表(Research Preview,2026年2月) |
| 自动记忆 | 后台自主记录项目偏好/代码习惯/架构决策,无需配置。区别于 MCP Memory 的手动外挂,属于原生体验 |
| GitHub App + CI | PR/Issue 中 @claude → 自动执行并提交;CI 失败自动触发修复;唯一真正在 CI 环境中自主运行的工具 |
| Skills 跨项目加载 | --add-dir 指向共享技能目录,团队全员自动同步 |
| Opus 4.6 Fast Mode | 同一模型的两种速度,非降级到小模型 |
| Plugin Marketplace | 去中心化设计,任何 git repo 即可成为 Marketplace |
主要劣势
- 价格偏高,Max 计划约 $100/月,重度使用可触及隐藏限额
- 完全供应商锁定,只能用 Claude 模型
- 闭源,无法审计代码的内部处理逻辑
社区真实反馈
“每次想换 agent 测试,Claude Code 总是证明自己更可靠,所以订阅还在续。” —— u/Baha_Abunojaim
“给了同一个 prompt 给 Gemini CLI 和 Claude Code + Opus 4.5。Gemini 到一半走进死胡同并道歉放弃,Opus 4.5 一次搞定。” —— u/philip_laureano
🟠 Codex(OpenAI)
GPT-5.3-Codex(2026-02-05)+ GPT-5.3-Codex-Spark(2026-02-12) 两款模型,两种工作节奏,一套生态
Codex 提出了一个新问题:当 AI 足够可靠时,“把任务分配出去然后做别的”是不是比”全程盯着”更有效率?
Codex 有两个产品形态:
- 云端 Codex App:异步委托,多任务并行,独立 sandbox,完成后生成带证据链的 PR 提案
- Codex CLI:本地终端工具,实时交互,支持 GPT-5.3-Codex 和 Spark 两种模型
核心优势
| 特性 | 说明 |
|---|---|
| GPT-5.3-Codex 模型 | SWE-Bench Pro 56.8%、Terminal-Bench 77.3%、OSWorld 64.7%(接近人类基准 ~72%);比前代快 25% |
| GPT-5.3-Codex-Spark | 首个实时编码模型,1200+ tokens/s(Cerebras WSE-3 加速);同等任务耗时约为 5.3-Codex 的 1/5 |
| 云端异步多任务 | 同时运行多个独立 sandbox,互不干扰——如同同时雇用多个工程师处理不同任务 |
| 任务证据链 | 完成后附带 terminal logs + 测试结果引用,每步可追溯,不是黑盒操作 |
| 实时任务介入 | GPT-5.3 新增:任务执行中可提问、调整方向、提供反馈,不会丢失上下文 |
| GitHub 深度集成 | 直接拉取仓库 → 执行任务 → 生成 PR 提案,整条链路闭环 |
主要劣势
- 云端版目前不支持 MCP(截至 2026-02-23)
- Spark 目前仅限 ChatGPT Pro($200/月)
- Spark 为纯文本模式,暂不支持多模态输入
🟢 OpenCode(anomalyco / 开源社区)
v1.2.10,2026-02-20 | ~95K GitHub Stars | MIT 开源
OpenCode 是五款工具里定位最独特的一款——它本身不是 AI,而是一个连接 AI 与你的代码库的开放框架。质量上限由你选择的模型决定,但平台本身给了你最大的自由度和透明度。
核心优势
| 特性 | 说明 |
|---|---|
| 75+ 模型供应商 | 支持单 session 内热切换——同一个对话里换模型 |
| 多 Session 并行 | 同一项目同时跑多个 agent 实例,结果横向对比。五款工具中唯一支持此功能 |
| LSP 深度集成 | 实时类型检查和符号引用分析注入 AI 上下文,减少低级类型错误 |
| 隐私优先 | 代码完全点对点传输,不经 OpenCode 任何服务器 |
| 复用现有订阅 | 支持通过 GitHub Copilot token 驱动,0 额外模型费用 |
| Claude Opus 4.6 + Sonnet 4.6 | Adaptive Reasoning/Thinking 全面支持(三端均可) |
主要劣势
- 工具本身不提供模型能力加成,质量完全取决于所选模型
- 无官方 GitHub App 集成,无法触发 CI/PR 流水线
- 2026年1月曾因 Anthropic 政策变更遭 API 限流(已恢复)
一句话定位: 当你用 Claude Opus 4.6 驱动 OpenCode 时,代码质量与 Claude Code 基本对齐——区别在于成本可控、数据自主、模型随时可换。
🔵 Gemini CLI(Google)
v0.16.x | Gemini 3.1 Pro Preview 发布于 2026-02-19
Gemini CLI 拥有行业最大的上下文窗口和最快的生态建设速度,却受困于推理质量的不稳定。2026年初那次无预警的免费额度削减,也让不少用户重新评估它的定位。
核心优势
| 特性 | 说明 |
|---|---|
| Gemini 3.1 Pro(最新) | 2026-02-19 发布 Preview,持续迭代的 Google 旗舰模型 |
| 1M token 上下文 | 五款工具中最大,适合超大型 monorepo 一次性全局理解 |
| Google Search Grounding | Agent 内置实时网页搜索并验证答案——被严重低估的能力,其他工具要实现同等效果需要额外配置 MCP |
| Extensions 生态 | 2026-02-11 正式开放;命名冲突处理是五款中最清晰的 |
| Session Checkpointing | 保存和恢复复杂 session,长任务中断后可接续 |
主要劣势
- 推理稳定性是头号问题:复杂任务易进入”道歉循环”后放弃
- 2026年初免费额度无预警削减 92%,信任损耗严重
- 超限后自动降级到 Flash 模型
社区真实声音
“它真的很蠢……一直说’您是对的,我完全错了’,然后又继续错下去。唯一的优势就是免费。” —— u/Quick_Geologist_6622
“我先用 Gemini 3 Pro 打头阵,额度用完再切 Claude Code。Gemini 能做大多数日常任务,CC 留作精细和复杂任务。” —— u/Chris266 (社区最流行的组合策略)
🟣 Antigravity(Google DeepMind)
IDE 内嵌 Coding Agent 平台,非传统 CLI 工具
Antigravity 是五款工具里最难归类的一款——它不是 CLI 工具,而是为复杂多步骤工作流设计的 IDE 内嵌 Agent 平台。实际上它拥有一套完整的扩展体系,只是术语和 Claude/Gemini 不同。
四层扩展体系
| 层级 | 概念 | 等价于 | 说明 |
|---|---|---|---|
| Rules | 持久化约束 | CLAUDE.md / GEMINI.md | Markdown 文件,Global(~/.gemini/GEMINI.md)和 Workspace(.agent/rules/)两级;支持 Manual / Always On / Model Decision / Glob 四种激活模式 |
| Workflows | 多步骤自动化 | Slash Commands | Markdown 文件,/workflow-name 触发;支持顺序步骤、互相调用;支持 AI 根据对话历史自动生成 |
| Skills | 专项能力包 | Agent Skills | SKILL.md 格式,基于开放标准 agentskills.io;Workspace(.agent/skills/)和 Global(~/.gemini/antigravity/skills/)两级 |
| MCP Store | 工具/数据集成 | MCP Server | 图形化一键安装 35+ 官方集成,支持自定义 MCP server |
核心优势
| 特性 | 说明 |
|---|---|
| 浏览器自动化(行业独有) | browser_subagent 可在单次任务中打开浏览器、截图、填表、提取数据,结果直接用于代码生成和 UI 验证 |
| Task Boundary 可视化 | PLANNING → EXECUTION → VERIFICATION 三阶段 UI,用户实时知道 agent 在哪一步,随时可介入调整 |
| AI 生成 Workflow | 对话结束后,可让 Agent 根据对话历史自动生成可复用 Workflow,是五款中独有的能力 |
| Artifact 系统 | 任务产出物以结构化 Markdown 统一管理,可审查、引用、版本管理 |
| Rules 激活模式 | 四种激活方式(手动 / 永远开启 / 模型决定 / Glob 文件匹配),是五款中上下文注入最精细的 |
主要劣势
- 非开放平台,模型选择受限;无 Hooks 机制(无法拦截 agent 的工具调用行为)
- 自主 Shell 执行链不如 Claude Code 强
- 无 GitHub App 集成
五、2026年2月最新功能速览
Claude Code(v2.1.26+)
- Agent Teams:多 Claude 实例并行协作(Research Preview)
- Claude Opus 4.6:1M context(beta)、Fast Mode(同模型提速,非降级)
- 自动记忆:后台自主积累工作上下文,无需配置
- Hooks GA:PreToolUse / PostToolUse / Stop 事件钩子正式可用
Codex
- GPT-5.3-Codex(2026-02-05):SWE-Bench Pro 56.8%;Terminal-Bench 77.3%;首款”High Capability”网络安全模型
- GPT-5.3-Codex-Spark(2026-02-12):1200+ tokens/s(Cerebras WSE-3);目前仅限 ChatGPT Pro
- Codex App GA(2026-02-02):专用云端应用正式上线
OpenCode(v1.2.10)
- Claude Opus 4.6 Adaptive Reasoning(三端同步)
- Gemini 3.1 Medium Reasoning 原生支持
- SQLite 替代 JSON 存储,性能大幅提升
Gemini CLI(v0.16.x)
- Gemini 3.1 Pro Preview(2026-02-19):最新旗舰模型
- Extensions 正式开放(2026-02-11)
- ⚠️ 免费额度削减 92%(2026年初):无预警,社区强烈反弹
六、特性归属全景图
五款工具共有(底层共性):
├── Agent Loop(LLM → Tool → Observe → Continue)
├── 文件读 / 写 / 编辑
├── Shell 命令执行
├── 上下文压缩(Compaction)
├── 权限确认系统
├── 项目配置文件(CLAUDE.md / AGENTS.md / GEMINI.md / SPEC.md)
└── Git 感知(diff / commit message / 分支理解)
Claude Code 独有 🔴
├── Hooks(深度拦截 agent 行为,PreToolUse / PostToolUse / Stop)
├── Agent Teams(多 agent 并行,Research Preview)
├── 自动记忆(无需配置,后台运行)
├── Skills 跨项目自动加载
├── GitHub App + CI 官方集成(唯一真正的 CI 集成)
├── Desktop SSH 远程连接
└── Opus 4.6 Fast Mode
Codex 独有 🟠
├── GPT-5.3-Codex-Spark(1200+ t/s 实时编码,行业首创)
├── 云端异步多任务并行(独立 sandbox)
└── 任务证据链(terminal logs + 测试结果引用,完整可追溯)
OpenCode 独有 🟢
├── 75+ 供应商任意切换(包括本地模型,可热切换)
├── 多 Session 并行对比(五款中唯一)
├── LSP 深度集成(实时类型检查注入 AI 上下文)
├── 隐私优先(代码不经第三方服务器)
└── Client/Server 架构(可远程驱动)
Gemini CLI 独有 🔵
├── 1M token 上下文(五款中最大)
├── Google Search Grounding(内置实时网页搜索,无需 MCP 外挂)
├── Session Checkpointing(保存 / 恢复复杂 session)
└── Extensions 命名冲突处理(清晰的优先级规则 + 自动前缀)
Antigravity 独有 🟣
├── 浏览器自动化(browser_subagent,边写代码边测试 UI)
├── Task Boundary 可视化(PLANNING / EXECUTION / VERIFICATION 三阶段 UI)
├── Workflows(/workflow-name 触发,多步骤,可互相调用,AI 可自动生成)
├── Rules 四模式(Manual / Always On / Model Decision / Glob,上下文注入最精细)
├── Artifact 系统(结构化任务产出,可审查引用)
└── GUI 化扩展管理(MCP Store + Workflows + Skills + Rules 面板,无需命令行)
七、快速选型参考
| 你的情况 | 推荐 |
|---|---|
| 重度编码,要最强推理 + GitHub CI 集成 | Claude Code Max |
| 需要多任务异步并行,“分配完去干别的” | Codex 云端 |
| 实时交互 + 极速响应(ChatGPT Pro 用户) | Codex-Spark |
| 研究 + 编码 + 浏览器验证的混合工作流 | Antigravity |
| 想用好模型但控制成本 / 需要多模型灵活切换 | OpenCode + Claude API |
| 企业内网 / 数据不出境 | OpenCode + 本地模型 |
| 超大 repo 全局分析(>500 文件一次理解) | Gemini CLI |
| Claude 撞限额时的高质量 backup | Gemini CLI 3.1 Pro |
| CI 里自动修复 PR | Claude Code(唯一真正官方支持) |
八、如何系统学习和掌握 Coding Agent?
工具会更新,但学习方法应该是系统的。以下是一个三阶段路径。
阶段一:建立基础(第 1–2 周)
目标:理解 Agent Loop,建立感性认知。
- 从一款工具开始,不要同时学多个。 推荐:Gemini CLI(免费额度够用)或 Claude Code(试用期)
- 用真实项目练习,不要用 toy example。 找一个你正在做或感兴趣的项目,让 agent 帮你做一个真实的功能
- 刻意观察 agent 的工具调用过程。 看它读了哪些文件、执行了哪些命令、为什么这么选。理解它的”思考路径”,而不只是看最终结果
- 建立第一版
CLAUDE.md/AGENTS.md。 记录项目结构、编码规范、测试命令——这是和任何 agent 协作的”入职手册”
本阶段的判断标准: 你能不能在不看文档的情况下,解释 agent 在每一步为什么这么做?
阶段二:形成工作流(第 2–4 周)
目标:把 agent 融入日常开发节奏,而不只是偶尔用一下。
- 建立”任务分类”习惯。 哪些任务适合完全委托?哪些需要全程参与?哪些不该用(安全敏感逻辑,直到你能完整审查为止)
- 学会写”可执行规格”而不是”模糊需求”。 每个任务包含:目标 + 约束 + 完成标准 + 不要做什么
- 引入第二款工具做对比。 用同一个任务给两款不同工具,差异点往往揭示你规格说明里不完整的部分
- 开始构建”prompt pattern 库”。 记录有效的 prompt 结构——好的 prompt 模式是可复用、可迁移的
本阶段的判断标准: 你有没有因为用了 agent 而在同样时间里交付了更多或更好的东西?
阶段三:精通与迁移(持续进行)
目标:把 agent 变成真正的杠杆,而不是工具依赖。
- 定期”无 agent 演练”。 先不依赖 agent 完成一个复杂任务——确保核心能力没有退化。你至少要能对 agent 生成的代码做负责任的 Code Review
- 研究 agent 的失败案例。 它在哪些任务上始终表现不好?这里隐藏着当前模型的能力边界,也是你最需要保留人类判断力的地方
- 把工作流和配置文件产品化。 把摸索出来的 prompt 模板、Hooks 配置整理成可复用的团队资产
- 跟踪领域而非工具。 每月花 30 分钟看主流工具的 changelog,但精力放在理解”这个新功能解决了什么本质问题”上,而不是每个功能都去试用
九、元认知:如何在与 Agent 交互中发现自己的思维盲区
这一章不谈工具,谈使用工具的人。
10.1 工具迭代很快,怎么抓住本质?
所有 Coding Agent 的本质是同一件事——帮你把”意图”转化为”可执行的操作”。
工具会变,但以下三件事不会变:
① 你的”意图表达能力”决定上限
Agent 的输出质量 = 你的 Prompt 质量 × 模型能力。换了工具结果差不多时,答案通常是:瓶颈在你,不在工具。
好的意图表达包含四个维度:
- What:要做什么(目标)
- Why:为什么这样做(约束来源)
- Done criteria:怎么算完成(可验证的标准)
- Scope boundary:不要做什么(边界)
② 只学”可迁移的心智模型”,不学具体命令
| 值得深学(跨工具通用) | 查文档即可(随时过时) |
|---|---|
| 如何分解复杂任务 | 具体 slash command |
| 上下文该放什么内容 | 配置文件字段名 |
| 何时介入、何时放手 | 特定工具的 UI 操作 |
| 如何验证 agent 的输出 | 价格和额度细节 |
③ 建立”工具无关的项目上下文”
维护一份项目核心文档(架构决策、编码规范、测试策略),按需适配成不同工具的配置文件格式。换工具的成本只是格式转换,而不是重新建立上下文。
10.2 如何发现自己的思维盲区?
Coding Agent 是一面放大镜,专门照出你没说清楚的地方。
Agent 的误解 = 你的表达存在歧义
当 agent 做”错”了,先问自己:
“它为什么会这样理解?我的表述里哪里留有歧义?”
Agent 走向的那个没想到的可能性,往往是你无意识中忽略的设计决策。
Agent 的提问 = 你的隐含假设曝光
当 agent 问”这个错误应该 throw 还是 return?“时,它揭示的是你没有写出来的架构假设。收集这些问题,整理成”经验 FAQ”,下次主动前置。
三个发现盲区的实践方法:
| 方法 | 操作 | 目的 |
|---|---|---|
| 对比法 | 同一任务给两个不同 agent,比较产出差异 | 差异点 = 你规格说明不完整的地方 |
| 反向提问 | 任务结束后问 agent:“我的需求描述里哪些部分最不清晰?“ | 直接让 agent 做需求质量评估 |
| 边界探问 | 代码完成后问:“这个实现有哪些隐含假设?不适用于哪些场景?“ | 发现自己没想到的 edge case |
警惕”假流畅”陷阱
Agent 完成任务太顺利时,反而要警惕:任务是不是太简单了?Agent 是不是走了你没注意到的捷径?
一个判断标准: 如果你无法在没有 agent 的情况下,对它生成的代码做负责任的 Code Review,说明你对这个领域的理解还不够深——此时 agent 是拐杖,不是杠杆。
结语
Coding Agent 的出现,不是让好的工程师变得多余,而是让**“如何思考问题”和”如何表达意图”**变得比以往任何时候都更重要。
工具会继续迭代——Codex-Spark 今天是 1200 tokens/s,明年可能是 10000。Claude Code 今天是 Agent Teams 的 Research Preview,明年可能是标配。这些都会变。
但有一件事不会变:你能不能把一个复杂的问题分解清楚,能不能把你的意图表达得足够精确,能不能在 agent 给出结果后做出有效的判断。
这不是一个关于哪款工具更好的问题,而是一个关于如何成为一个更好的工程师的问题。
数据来源:Claude Code CHANGELOG.md、OpenAI GPT-5.3-Codex / Spark 官方发布博客(2026-02-05 / 2026-02-12)、OpenCode 官方 Changelog(opencode.ai)、Google AI API Release Notes(Gemini 3.1 Pro Preview,2026-02-19)、harishgarg.com Plugins vs Extensions 对比、Reddit r/ClaudeCode r/GeminiCLI r/ChatGPTCoding(截至 2026-02-23)