Skip to content
格物致知
返回

Coding Agent 全景指南(2026年2月)

引言

如果你在两年前问一个开发者”AI 编程工具”是什么,他大概会说”Copilot,就是那个自动补全的”。

今天,这个问题的答案复杂多了——不是因为工具变多了,而是因为底层范式变了。

我们正从”代码补全”进入”自主编程 Agent”的时代。 这不是量变,是质变。

这篇文章会带你系统理解这个转变是什么、为什么重要、当前有哪些主要工具、以及如何真正学会用好它们——而不只是追着工具更新跑。


一、什么是 Coding Agent?

1.1 三代 AI 编程工具的进化

理解 Coding Agent 最好的方式,是把它放在历史演进中看。

第一代:代码补全(2021–2022)

以 GitHub Copilot(2021年6月发布)为代表。它的工作方式很简单:你在编辑器里打字,它预测接下来的几行。被动、局部、无状态。你是发动机,它是油门助力。

第二代:对话式编程(2022–2024)

ChatGPT(2022年11月)的出现让”和 AI 聊着写代码”成为可能。Cursor、Codeium 等工具把对话嵌入编辑器。这一代的进步是你可以用自然语言描述意图,但 AI 还是只能”建议”——你需要手动把代码贴进去、手动运行、手动反馈。AI 是顾问,你还是执行者。

第三代:自主编程 Agent(2025年至今)

这是当前我们所处的阶段。Claude Code(2025年2月24日)、OpenAI Codex(2025年5月)的相继发布标志着转折点——AI 可以直接操作你的代码库。它能读文件、写文件、执行命令、运行测试、看测试结果再修 bug,然后提交代码。

你不再是执行者,你是任务下达者和审查者。

1.2 Coding Agent 的运行本质

所有 Coding Agent,无论名字多么不同,底层都在运行同一个循环:

用户 Prompt

LLM 推理(想下一步)

工具调用(读文件 / 写代码 / 执行命令 / 搜索)

观察结果(命令输出 / 测试结果 / 文件内容)

继续推理(还需要做什么?)

直到完成 → 输出给用户

这个”推理 → 执行 → 观察 → 推理”的闭环,叫做 Agent Loop

理解这个循环,你就理解了所有 Coding Agent 的本质,无论界面是终端还是 Web,无论底层是 Claude 还是 GPT-5。

1.3 和前两代工具相比,Coding Agent 的核心飞跃

能力第一代(补全)第二代(对话)第三代(Agent)
理解自然语言意图有限
访问真实代码库有限
自主执行命令
运行并解读测试
多步骤自主迭代
提交 PR / CI 集成✅(部分工具)

二、主流工具概览

当前(2026年2月)最值得关注的五款工具:

维度Claude CodeCodexOpenCodeGemini CLIAntigravity
出品方AnthropicOpenAI开源社区GoogleGoogle DeepMind
形态CLI + Desktop云端 App + CLICLI + DesktopCLIIDE 内嵌 Agent
开源性❌ 闭源CLI 开源✅ MIT✅ Apache 2.0❌ 闭源
核心模型Claude Opus 4.6GPT-5.3-Codex / Spark75+ 供应商可选Gemini 3.1 ProGemini(可扩展)
上下文窗口200K → 1M(beta)无公开上限取决于模型1M token1M token
SWE-Bench 评分未公开56.8% Pro取决于模型未公开未公开
GitHub 集成✅ 官方 App + CI✅ PR 提案部分
MCP 支持✅ + Plugin 生态✅ + Extension
浏览器自动化✅ 原生

三、我的综合排序

排序基于”中高级开发者、复杂编码任务”场景,不含成本因素的干扰。

排名工具核心理由
🥇 1Claude Code推理最稳定、工程生态最完整,Hooks + Agent Teams + GitHub CI 无可替代
🥈 2CodexGPT-5.3 编码性能与 Claude 并列第一;Spark 的实时协作模式是行业首创
🥉 3Antigravity浏览器自动化 + 任务可视化的差异化工作流平台
4️⃣OpenCode模型自由度最高、成本最可控,质量上限取决于所选模型
5️⃣Gemini CLI1M 上下文是真实优势,但推理不稳定;适合补充而非主力

四、五款工具深度分析

🔴 Claude Code(Anthropic)

v2.1.26+,2026年2月 | 目前市场上综合工程能力最强的 Coding Agent

Claude Code 最大的差异化,是 Anthropic 把它定位为”协作式工程系统”而非单一工具:Hooks 系统让企业可以深度嵌入质量管控,Agent Teams 让多个实例并行协作,GitHub App 打通了从 Issue 到 CI 的完整研发链路。

核心优势

特性说明
Hooks 系统在 agent loop 的 PreToolUse / PostToolUse / Stop 等时机注入自定义逻辑,可拦截、记录、修改 agent 行为——是 Plugin 体系的核心,也是企业级质量门控的基础
Agent Teams多个 Claude 实例并行协作:一个重构代码,一个写测试,一个做审查,共享任务列表(Research Preview,2026年2月)
自动记忆后台自主记录项目偏好/代码习惯/架构决策,无需配置。区别于 MCP Memory 的手动外挂,属于原生体验
GitHub App + CIPR/Issue 中 @claude → 自动执行并提交;CI 失败自动触发修复;唯一真正在 CI 环境中自主运行的工具
Skills 跨项目加载--add-dir 指向共享技能目录,团队全员自动同步
Opus 4.6 Fast Mode同一模型的两种速度,非降级到小模型
Plugin Marketplace去中心化设计,任何 git repo 即可成为 Marketplace

主要劣势

社区真实反馈

“每次想换 agent 测试,Claude Code 总是证明自己更可靠,所以订阅还在续。” —— u/Baha_Abunojaim

“给了同一个 prompt 给 Gemini CLI 和 Claude Code + Opus 4.5。Gemini 到一半走进死胡同并道歉放弃,Opus 4.5 一次搞定。” —— u/philip_laureano


🟠 Codex(OpenAI)

GPT-5.3-Codex(2026-02-05)+ GPT-5.3-Codex-Spark(2026-02-12) 两款模型,两种工作节奏,一套生态

Codex 提出了一个新问题:当 AI 足够可靠时,“把任务分配出去然后做别的”是不是比”全程盯着”更有效率?

Codex 有两个产品形态:

核心优势

特性说明
GPT-5.3-Codex 模型SWE-Bench Pro 56.8%、Terminal-Bench 77.3%、OSWorld 64.7%(接近人类基准 ~72%);比前代快 25%
GPT-5.3-Codex-Spark首个实时编码模型,1200+ tokens/s(Cerebras WSE-3 加速);同等任务耗时约为 5.3-Codex 的 1/5
云端异步多任务同时运行多个独立 sandbox,互不干扰——如同同时雇用多个工程师处理不同任务
任务证据链完成后附带 terminal logs + 测试结果引用,每步可追溯,不是黑盒操作
实时任务介入GPT-5.3 新增:任务执行中可提问、调整方向、提供反馈,不会丢失上下文
GitHub 深度集成直接拉取仓库 → 执行任务 → 生成 PR 提案,整条链路闭环

主要劣势


🟢 OpenCode(anomalyco / 开源社区)

v1.2.10,2026-02-20 | ~95K GitHub Stars | MIT 开源

OpenCode 是五款工具里定位最独特的一款——它本身不是 AI,而是一个连接 AI 与你的代码库的开放框架。质量上限由你选择的模型决定,但平台本身给了你最大的自由度和透明度。

核心优势

特性说明
75+ 模型供应商支持单 session 内热切换——同一个对话里换模型
多 Session 并行同一项目同时跑多个 agent 实例,结果横向对比。五款工具中唯一支持此功能
LSP 深度集成实时类型检查和符号引用分析注入 AI 上下文,减少低级类型错误
隐私优先代码完全点对点传输,不经 OpenCode 任何服务器
复用现有订阅支持通过 GitHub Copilot token 驱动,0 额外模型费用
Claude Opus 4.6 + Sonnet 4.6Adaptive Reasoning/Thinking 全面支持(三端均可)

主要劣势

一句话定位: 当你用 Claude Opus 4.6 驱动 OpenCode 时,代码质量与 Claude Code 基本对齐——区别在于成本可控、数据自主、模型随时可换。


🔵 Gemini CLI(Google)

v0.16.x | Gemini 3.1 Pro Preview 发布于 2026-02-19

Gemini CLI 拥有行业最大的上下文窗口和最快的生态建设速度,却受困于推理质量的不稳定。2026年初那次无预警的免费额度削减,也让不少用户重新评估它的定位。

核心优势

特性说明
Gemini 3.1 Pro(最新)2026-02-19 发布 Preview,持续迭代的 Google 旗舰模型
1M token 上下文五款工具中最大,适合超大型 monorepo 一次性全局理解
Google Search GroundingAgent 内置实时网页搜索并验证答案——被严重低估的能力,其他工具要实现同等效果需要额外配置 MCP
Extensions 生态2026-02-11 正式开放;命名冲突处理是五款中最清晰的
Session Checkpointing保存和恢复复杂 session,长任务中断后可接续

主要劣势

社区真实声音

“它真的很蠢……一直说’您是对的,我完全错了’,然后又继续错下去。唯一的优势就是免费。” —— u/Quick_Geologist_6622

“我先用 Gemini 3 Pro 打头阵,额度用完再切 Claude Code。Gemini 能做大多数日常任务,CC 留作精细和复杂任务。” —— u/Chris266 (社区最流行的组合策略)


🟣 Antigravity(Google DeepMind)

IDE 内嵌 Coding Agent 平台,非传统 CLI 工具

Antigravity 是五款工具里最难归类的一款——它不是 CLI 工具,而是为复杂多步骤工作流设计的 IDE 内嵌 Agent 平台。实际上它拥有一套完整的扩展体系,只是术语和 Claude/Gemini 不同。

四层扩展体系

层级概念等价于说明
Rules持久化约束CLAUDE.md / GEMINI.mdMarkdown 文件,Global(~/.gemini/GEMINI.md)和 Workspace(.agent/rules/)两级;支持 Manual / Always On / Model Decision / Glob 四种激活模式
Workflows多步骤自动化Slash CommandsMarkdown 文件,/workflow-name 触发;支持顺序步骤、互相调用;支持 AI 根据对话历史自动生成
Skills专项能力包Agent SkillsSKILL.md 格式,基于开放标准 agentskills.io;Workspace(.agent/skills/)和 Global(~/.gemini/antigravity/skills/)两级
MCP Store工具/数据集成MCP Server图形化一键安装 35+ 官方集成,支持自定义 MCP server

核心优势

特性说明
浏览器自动化(行业独有)browser_subagent 可在单次任务中打开浏览器、截图、填表、提取数据,结果直接用于代码生成和 UI 验证
Task Boundary 可视化PLANNING → EXECUTION → VERIFICATION 三阶段 UI,用户实时知道 agent 在哪一步,随时可介入调整
AI 生成 Workflow对话结束后,可让 Agent 根据对话历史自动生成可复用 Workflow,是五款中独有的能力
Artifact 系统任务产出物以结构化 Markdown 统一管理,可审查、引用、版本管理
Rules 激活模式四种激活方式(手动 / 永远开启 / 模型决定 / Glob 文件匹配),是五款中上下文注入最精细的

主要劣势


五、2026年2月最新功能速览

Claude Code(v2.1.26+)

Codex

OpenCode(v1.2.10)

Gemini CLI(v0.16.x)


六、特性归属全景图

五款工具共有(底层共性):
├── Agent Loop(LLM → Tool → Observe → Continue)
├── 文件读 / 写 / 编辑
├── Shell 命令执行
├── 上下文压缩(Compaction)
├── 权限确认系统
├── 项目配置文件(CLAUDE.md / AGENTS.md / GEMINI.md / SPEC.md)
└── Git 感知(diff / commit message / 分支理解)

Claude Code 独有 🔴
├── Hooks(深度拦截 agent 行为,PreToolUse / PostToolUse / Stop)
├── Agent Teams(多 agent 并行,Research Preview)
├── 自动记忆(无需配置,后台运行)
├── Skills 跨项目自动加载
├── GitHub App + CI 官方集成(唯一真正的 CI 集成)
├── Desktop SSH 远程连接
└── Opus 4.6 Fast Mode

Codex 独有 🟠
├── GPT-5.3-Codex-Spark(1200+ t/s 实时编码,行业首创)
├── 云端异步多任务并行(独立 sandbox)
└── 任务证据链(terminal logs + 测试结果引用,完整可追溯)

OpenCode 独有 🟢
├── 75+ 供应商任意切换(包括本地模型,可热切换)
├── 多 Session 并行对比(五款中唯一)
├── LSP 深度集成(实时类型检查注入 AI 上下文)
├── 隐私优先(代码不经第三方服务器)
└── Client/Server 架构(可远程驱动)

Gemini CLI 独有 🔵
├── 1M token 上下文(五款中最大)
├── Google Search Grounding(内置实时网页搜索,无需 MCP 外挂)
├── Session Checkpointing(保存 / 恢复复杂 session)
└── Extensions 命名冲突处理(清晰的优先级规则 + 自动前缀)

Antigravity 独有 🟣
├── 浏览器自动化(browser_subagent,边写代码边测试 UI)
├── Task Boundary 可视化(PLANNING / EXECUTION / VERIFICATION 三阶段 UI)
├── Workflows(/workflow-name 触发,多步骤,可互相调用,AI 可自动生成)
├── Rules 四模式(Manual / Always On / Model Decision / Glob,上下文注入最精细)
├── Artifact 系统(结构化任务产出,可审查引用)
└── GUI 化扩展管理(MCP Store + Workflows + Skills + Rules 面板,无需命令行)

七、快速选型参考

你的情况推荐
重度编码,要最强推理 + GitHub CI 集成Claude Code Max
需要多任务异步并行,“分配完去干别的”Codex 云端
实时交互 + 极速响应(ChatGPT Pro 用户)Codex-Spark
研究 + 编码 + 浏览器验证的混合工作流Antigravity
想用好模型但控制成本 / 需要多模型灵活切换OpenCode + Claude API
企业内网 / 数据不出境OpenCode + 本地模型
超大 repo 全局分析(>500 文件一次理解)Gemini CLI
Claude 撞限额时的高质量 backupGemini CLI 3.1 Pro
CI 里自动修复 PRClaude Code(唯一真正官方支持)

八、如何系统学习和掌握 Coding Agent?

工具会更新,但学习方法应该是系统的。以下是一个三阶段路径。

阶段一:建立基础(第 1–2 周)

目标:理解 Agent Loop,建立感性认知。

  1. 从一款工具开始,不要同时学多个。 推荐:Gemini CLI(免费额度够用)或 Claude Code(试用期)
  2. 用真实项目练习,不要用 toy example。 找一个你正在做或感兴趣的项目,让 agent 帮你做一个真实的功能
  3. 刻意观察 agent 的工具调用过程。 看它读了哪些文件、执行了哪些命令、为什么这么选。理解它的”思考路径”,而不只是看最终结果
  4. 建立第一版 CLAUDE.md / AGENTS.md 记录项目结构、编码规范、测试命令——这是和任何 agent 协作的”入职手册”

本阶段的判断标准: 你能不能在不看文档的情况下,解释 agent 在每一步为什么这么做?

阶段二:形成工作流(第 2–4 周)

目标:把 agent 融入日常开发节奏,而不只是偶尔用一下。

  1. 建立”任务分类”习惯。 哪些任务适合完全委托?哪些需要全程参与?哪些不该用(安全敏感逻辑,直到你能完整审查为止)
  2. 学会写”可执行规格”而不是”模糊需求”。 每个任务包含:目标 + 约束 + 完成标准 + 不要做什么
  3. 引入第二款工具做对比。 用同一个任务给两款不同工具,差异点往往揭示你规格说明里不完整的部分
  4. 开始构建”prompt pattern 库”。 记录有效的 prompt 结构——好的 prompt 模式是可复用、可迁移的

本阶段的判断标准: 你有没有因为用了 agent 而在同样时间里交付了更多或更好的东西?

阶段三:精通与迁移(持续进行)

目标:把 agent 变成真正的杠杆,而不是工具依赖。

  1. 定期”无 agent 演练”。 先不依赖 agent 完成一个复杂任务——确保核心能力没有退化。你至少要能对 agent 生成的代码做负责任的 Code Review
  2. 研究 agent 的失败案例。 它在哪些任务上始终表现不好?这里隐藏着当前模型的能力边界,也是你最需要保留人类判断力的地方
  3. 把工作流和配置文件产品化。 把摸索出来的 prompt 模板、Hooks 配置整理成可复用的团队资产
  4. 跟踪领域而非工具。 每月花 30 分钟看主流工具的 changelog,但精力放在理解”这个新功能解决了什么本质问题”上,而不是每个功能都去试用

九、元认知:如何在与 Agent 交互中发现自己的思维盲区

这一章不谈工具,谈使用工具的人。

10.1 工具迭代很快,怎么抓住本质?

所有 Coding Agent 的本质是同一件事——帮你把”意图”转化为”可执行的操作”。

工具会变,但以下三件事不会变:

① 你的”意图表达能力”决定上限

Agent 的输出质量 = 你的 Prompt 质量 × 模型能力。换了工具结果差不多时,答案通常是:瓶颈在你,不在工具。

好的意图表达包含四个维度:

② 只学”可迁移的心智模型”,不学具体命令

值得深学(跨工具通用)查文档即可(随时过时)
如何分解复杂任务具体 slash command
上下文该放什么内容配置文件字段名
何时介入、何时放手特定工具的 UI 操作
如何验证 agent 的输出价格和额度细节

③ 建立”工具无关的项目上下文”

维护一份项目核心文档(架构决策、编码规范、测试策略),按需适配成不同工具的配置文件格式。换工具的成本只是格式转换,而不是重新建立上下文。

10.2 如何发现自己的思维盲区?

Coding Agent 是一面放大镜,专门照出你没说清楚的地方。

Agent 的误解 = 你的表达存在歧义

当 agent 做”错”了,先问自己:

“它为什么会这样理解?我的表述里哪里留有歧义?”

Agent 走向的那个没想到的可能性,往往是你无意识中忽略的设计决策。

Agent 的提问 = 你的隐含假设曝光

当 agent 问”这个错误应该 throw 还是 return?“时,它揭示的是你没有写出来的架构假设。收集这些问题,整理成”经验 FAQ”,下次主动前置。

三个发现盲区的实践方法:

方法操作目的
对比法同一任务给两个不同 agent,比较产出差异差异点 = 你规格说明不完整的地方
反向提问任务结束后问 agent:“我的需求描述里哪些部分最不清晰?“直接让 agent 做需求质量评估
边界探问代码完成后问:“这个实现有哪些隐含假设?不适用于哪些场景?“发现自己没想到的 edge case

警惕”假流畅”陷阱

Agent 完成任务太顺利时,反而要警惕:任务是不是太简单了?Agent 是不是走了你没注意到的捷径?

一个判断标准: 如果你无法在没有 agent 的情况下,对它生成的代码做负责任的 Code Review,说明你对这个领域的理解还不够深——此时 agent 是拐杖,不是杠杆。


结语

Coding Agent 的出现,不是让好的工程师变得多余,而是让**“如何思考问题”和”如何表达意图”**变得比以往任何时候都更重要。

工具会继续迭代——Codex-Spark 今天是 1200 tokens/s,明年可能是 10000。Claude Code 今天是 Agent Teams 的 Research Preview,明年可能是标配。这些都会变。

但有一件事不会变:你能不能把一个复杂的问题分解清楚,能不能把你的意图表达得足够精确,能不能在 agent 给出结果后做出有效的判断。

这不是一个关于哪款工具更好的问题,而是一个关于如何成为一个更好的工程师的问题。


数据来源:Claude Code CHANGELOG.md、OpenAI GPT-5.3-Codex / Spark 官方发布博客(2026-02-05 / 2026-02-12)、OpenCode 官方 Changelog(opencode.ai)、Google AI API Release Notes(Gemini 3.1 Pro Preview,2026-02-19)、harishgarg.com Plugins vs Extensions 对比、Reddit r/ClaudeCode r/GeminiCLI r/ChatGPTCoding(截至 2026-02-23)


分享文章:

上一篇
ZDR 的真相:当 Anthropic 追踪到「具体员工」时
下一篇
从 Vibe Coding 到 Agentic Engineering