最近因为折腾 AI,陆续买了好几台云服务器——有国内的,有海外的,不同供应商、不同系统版本。每台机器到手之后,流程都一样:SSH 进去,装基础工具链(git、zsh、oh-my-zsh、fzf),装 Node.js 和 Claude Code,配环境变量(API Key、代理设置),调 shell 配置,装 Tailscale 组网……第一台的时候还挺有新鲜感,到第三台就开始烦了。
纯粹的重复劳动,没有任何技术含量,但一步都不能少。手动配一台服务器,快的话二十分钟,慢的话半个小时以上——中间还总得查一下"那个环境变量叫什么来着"。
然后某个瞬间,我反应过来——我为什么要自己做这件事?
我直接把新服务器的 IP 和密码告诉 Claude Code,再给它一台已经配好的服务器作为参考,一句话:“SSH 到这台参考机器看看装了什么、环境变量怎么配的,然后照着在新服务器上复现。”
它自己 SSH 过去,cat /etc/os-release 看系统版本,读 .zshrc 和 .bashrc 扒环境变量,查 which 看装了哪些工具,然后切到新服务器上,按顺序装好一切。中间碰到系统版本不同导致包管理器不一样(Ubuntu 用 apt,CentOS 用 yum),它自己做了适配,我压根没提过这个问题。
几分钟之后,环境配好了。我 SSH 上去抽查了一下,该有的都有,环境变量一个不差。
这件事本身不大,但它让我意识到一个问题:我的默认思维模式是错的。
以前觉得"配服务器"就等于"我 SSH 进去敲命令",这两件事在脑子里是绑定的。但我的目标只是"让这台机器变成可用状态",至于谁来登录、谁来执行那些命令——无所谓。目标和手段之间有一层解耦,一旦意识到这一点,很多以前觉得"只能亲自做"的事情,突然就变成了可委派的。
什么是 Agent First
过去几年,我用 AI 工具的频率越来越高。从最早拿 ChatGPT 问问题,到后来用 Cursor 写代码,再到现在 Claude Code 几乎成了我的主力 Agent。但回头看,很长一段时间里,我的思维一直停留在一个阶段——“工具辅助”。
什么叫工具辅助?就是我是主角,AI 是配角。我想好做什么,我决定怎么做,AI 负责帮我加速执行。写代码的时候让它补全,遇到 bug 的时候让它分析,写文档的时候让它润色。核心决策和执行路径都在我手里,AI 只是提速的工具。
这没什么问题,但它有一个隐含的假设:执行者是我。
Agent First 是一个反过来的思路:做任何事之前,先问一句——这件事能让 Agent 来做吗?
这个问题的答案会引出三条路:
第一,能做,那就直接委派。你当调度者,它当执行者。
第二,现在不能做,但可以建设这个能力。花点时间把它沉淀成一个可复用的 skill 或 workflow,下次就能做了。
第三,确实只能自己干。这才是你亲自上手的时候。
关键在于顺序。大多数人(包括之前的我)碰到一件事的默认反应是第三条——撸起袖子自己上。Agent First 的意思是把这个顺序倒过来,“自己干"变成最后的选项,而不是第一反应。
用一个表格来对比一下这两种思维模式:
| 工具辅助思维 | Agent First 思维 | |
|---|---|---|
| 默认模式 | 我来干,AI 帮忙 | AI 来干,我来调度 |
| 遇到新任务 | 想"我怎么做” | 想"能不能让 Agent 做" |
| 遇到重复任务 | 忍一忍,继续手动 | 建设能力,沉淀 skill |
| 时间花在 | 执行具体动作 | 定义任务、审查结果 |
| 能力边界 | 自己的技能和精力 | Agent 能力池的总和 |
一句话变成一个自主循环
这种思维转变在日常开发中体现得很明显。
写完一段代码之后,我以前的习惯是:自己跑一遍 git diff,逐文件看改了什么,发现问题——比如变量命名不一致、错误处理遗漏、某个边界条件没覆盖——然后手动改,改完再 diff 一遍确认,没问题了提交。这个循环完全是手动的,每一步都需要我盯着屏幕,脑子里同时装着"改了什么"和"还有什么没改好"两件事。
现在我会直接跟 CC 说一句:
“review 一下当前 git 改动,有问题就直接修,修完继续 review,循环到你觉得可以提交为止。”
一句话,它自己就跑起来了。先 git diff 看所有改动,然后逐文件分析:命名是否一致、逻辑是否完整、有没有遗漏的错误处理。发现问题直接改——不是告诉我"这里有问题"然后等指示,而是自己判断怎么改、改完继续检查。整个过程形成了一个自主闭环:
读 diff → 分析问题 → 修复 → 重新 diff → 检查修复是否引入新问题 → 确认没问题 → 报告结果
我干嘛去了?倒了杯咖啡,回来看到它告诉我"改了三处,现在可以提交了",附带改动摘要。我扫一眼摘要,确认合理,提交。以前要二十分钟的人肉循环,现在两分钟搞定。
这不是什么高深的技巧。技术上零门槛,任何人都能做到。但它需要你脑子里先转过一个弯:这件事我是不是可以不亲自做?
大多数人写完代码之后的第一反应是"我来看一遍",而不是"让 Agent 来看一遍"。差别就在这个默认反应上。
飞轮
Agent First 真正的价值在于长期的复利效应,远超单次提效。
最初用 Claude Code 的时候,能委派给它的事情比较有限——写代码、改 bug、做 code review,基本就这些。但随着使用的深入,我开始把一些"非代码"的工作也往它身上放。
第一个转折点是飞书文档。我写技术分享经常需要在飞书上发文档,以前的流程是:本地写好 Markdown → 复制粘贴到飞书 → 手动调格式(因为飞书对 Markdown 的支持有各种限制)→ 表格重新排版 → Mermaid 图表手动截图再贴进去。一篇长文档折腾下来,排版花的时间比写作还长。
后来我花了大概两天时间,把飞书的 Open API 调通,写了一套导入脚本,处理了 Mermaid 图表自动渲染、大表格自动拆分、Callout 格式适配这些边角情况,然后封装成了一个 CC 的 skill。从那以后,“把这篇 Markdown 导入飞书"变成了一句话的事——格式完美,图表自动渲染,表格不会乱。
然后是图床上传。写博客需要插图,以前要手动打开图床网站、选文件、上传、复制链接、粘贴回 Markdown。一张图还好,一篇文章十几张图就很烦。现在这也是一个 skill,一句话上传,直接返回 Markdown 格式的链接。
再然后是封面图生成。以前找封面图要去各种素材网站翻半天,费时间还不一定找得到合适的。现在接了 AI 生图的 API,描述一下想要什么风格,几秒钟出图。
从单点到链路
这些 skill 单独看,每个都只是节省了一点点时间。但组合在一起的时候,事情就不一样了。我现在写完一篇文章,后续流程是这样的:
一句话生成封面图 → 一句话上传图床 → 一句话保存文章 → 一句话导入飞书 → 一句话发消息通知
整条链路全自动。以前从写完正文到发布完成需要半小时到一小时的手动操作,现在五分钟搞定,中间不需要我做任何决策——每一步该怎么做,skill 里都定义好了。
不用往远了说,这篇文章本身就是一个例子。你现在看到的封面图,是我跟 CC 说"生成一张哆啦 A 梦风格的封面”,它调用图片生成 skill 出图,再调用图床上传 skill 拿到链接,直接填进文章的 frontmatter 里。从描述需求到封面就位,一分钟不到。如果没有这些 skill 的积累,光找图、P 图、上传这一套流程就得折腾二十分钟。
而且这些能力组合在一起之后,会产生一些原本不存在的新可能。
举个例子,以前我从来不写"转载翻译"类的文章——看到一篇好的英文文章,想翻译成中英双语对照发到自己博客上,工作量太大了。要逐段翻译、排版、处理图片、上传……一篇五千字的文章搞下来半天就没了。但现在,“翻译 + 排版 + 图片处理 + 图床上传 + 生成封面 + 发布"这整条链路都是自动的。结果就是,我的博客上多了好几篇以前根本不会去做的翻译文章。不是我突然变勤快了,是执行成本降到了低于我的行动阈值。
这就是飞轮效应。每建设一个 skill,你的能力池就大一点;能力池越大,能组合出来的 workflow 就越多;workflow 越多,你能以低成本做到的事情就越多。
搭第一次确实要花时间。飞书导入那个 skill 我折腾了两天,中间调 API 调到想摔键盘。但这两天的投入换来了之后每周好几次的零成本使用,累计回报率高得吓人。
而且一旦这种思维方式形成习惯,你会发现自己在日常工作中不断发现可以沉淀的点。每次手动做一件重复的事情,脑子里自动冒出一个声音:“这个能不能做成 skill?“能就建,不能就先标记着,等以后工具能力够了再说。长期来看,你手里能调度的能力是滚雪球式增长的。
很多以前"不值得做"的事——比如每篇博客都配一张精心生成的封面图、每次技术分享都同步生成飞书文档——现在变成了一句话的事。这些事本身没变简单,但执行成本降到了接近零。
Anthropic 内部有个策略叫 Dogfooding——全员用自己的 Claude 干活,遇到 Agent 搞不定的问题,直接把它定义成下个版本的 Benchmark。每一个真实场景里的翻车,都变成了模型进化的训练目标。这大概是他们的模型能做得那么深的一个原因——全靠自己天天踩坑踩出来的。
国内的 MiniMax 也在推类似的东西,他们叫 Agent Native,全员包括法务、HR 都要求优先用 Agent 工作,用 Agent 做 GPU 算子优化,甚至合同审核和招聘流程也在往 Agent 上迁。逻辑都一样:内部真实使用产生的反馈,能覆盖到任何 Benchmark 测不到的边缘场景。
Agent First 已经超越了个人效率偏好,它是一种正在成型的工作范式。你不需要等到 Agent 什么都能干才开始用——现在就用,用的过程中遇到的每一个坎,可能下个月就被模型更新解决了。
翻车是进化的燃料
说了这么多好处,但事情肯定不是一帆风顺的。
Agent 再强,它也不知道你的项目有哪些暗规则、哪些约定俗成的潜规则。它不知道那行被注释掉的代码是故意留着的,不知道某个看起来多余的配置是给另一个环境用的,不知道团队内部约定的某些命名习惯。这些上下文从来没有写在任何文档里,全靠你脑子里装着。
所以 Agent 会产生幻觉,会自作主张,会在你没预料到的地方搞出问题。这很正常——它看到的信息和你看到的信息不对称,它只能基于它拿到的上下文做判断,而你脑子里那些没说出口的东西,它无从得知。
但冷静下来想想,手动操作就不犯错吗?我自己手动改代码的时候也翻过不少车。差别在于:Agent 翻车之后,你可以把教训固化成规则;你自己翻车之后,只能靠"下次注意”——但下次大概率还是会忘。
每次出了问题,我做的第一件事是想:它为什么会犯这个错?是上下文给少了,还是约束没写清楚?然后把缺失的信息补到规则文件或 skill 里。这些规则会被 Agent 每次执行任务时读取,写一次,永久生效。
你要当掌舵人,持续优化和思考。 每次翻车都是一个信号,告诉你现有的流程哪里有缺口。你把这个缺口补上,下次同类任务自动规避。时间一长,你手里就不只是一堆零散的工具,而是一套经过实战打磨的方法论——哪些任务该怎么委派、边界在哪、什么情况需要人工介入,全都编码在你的 Agent 配置里了。
翻车次数越多,这套方法论就越成熟,犯错率反而越来越低。翻车不是不委派的理由——每一次翻车都在喂养你的系统,让它变得更强。
为什么这个弯不好转
说起来容易做起来难。Agent First 最大的阻力来自心理层面,跟技术无关。
惯性是第一面墙。写了这么多年代码,“打开编辑器自己改"已经是肌肉记忆了。碰到一个 bug,手指比脑子反应快——还没想清楚要不要委派,手已经开始改了。我经常是改到一半才意识到,“这个事情其实可以让 CC 来做的”,但已经改了一半了,算了,干完吧。下次再说。
然后是控制欲。说白了,很多程序员(包括我自己)享受亲手解决问题的成就感。定位到一个隐蔽的 bug,那种"找到你了"的快感是真实的。让 Agent 干完了,结果虽然一样,但你没经历那个寻找和发现的过程,总觉得少了点什么。这种感觉很微妙,它会让你在潜意识里抵触委派。
还有一层是信任。你不确定 Agent 能不能做对。以前自己亲手改的代码,出了问题我知道去哪找原因。交给 Agent 之后,万一改出了新 bug 怎么办?代码读着不顺眼怎么办?风格不统一怎么办?这些担心都是合理的。但解决方案是建立验证机制——让 Agent 做完之后你检查结果,跑测试,看 diff。调度者该做的事只有一件:审查结果。
我自己花了大概两三个月才真正转过这个弯。没有什么一夜之间的顿悟,就是一次次小事情的积累。每次手动做了某件事之后,事后反应过来"这个完全可以交给 CC 做的”,下次就记住了。慢慢地,默认反应从"我来"变成了"它来”。
而且这个转变是有正反馈的。一旦你开始习惯性地委派,你会发现自己多出来的时间和精力,可以花在更需要人类判断力的事情上——架构决策、需求分析、优先级排序、跟人沟通。这些事没法委派,也不应该委派。但以前你的时间被大量执行层面的琐事占满了,根本没空认真想这些。
话说回来,这套思路是不是适用于所有类型的工作,我没完全想清楚。写代码、配环境、处理文档,这些偏流程化的任务委派效果确实好。但对于那些需要从零开始构思、需要大量模糊决策的工作——比如想清楚一个产品该往哪个方向走——Agent 能帮多少忙,我还在摸索。
几个容易被忽略的前提
聊了这么多 Agent First 的好处,但有几个前提不说清楚,整套逻辑就是空中楼阁。
第一,永远用最新最好的模型和工具。
这一点听起来像废话,但实际操作中大量的人卡在这里。最近跟同事聊,他说 AI 生成的代码不靠谱、理解不了复杂需求,一问用的还是几个月前的模型,工具也停留在网页聊天框。
很多人没意识到,AI 已经从 Chat 阶段过渡到了 Agent 阶段。Chat 阶段是什么样?你在网页对话框里输入问题,AI 回你一段文字,你复制粘贴到编辑器里,手动改改再用。本质上它是一个高级搜索引擎,你问它答,执行还是靠你自己。
Agent 阶段完全不一样了。Claude Code、Codex CLI 这类工具让 AI 直接操作你的开发环境——自己读代码、改代码、跑测试、操作文件系统、调用 API。你不需要复制粘贴任何东西,你只需要说清楚要做什么,它自己去干。从"你问它答"变成了"你说它干”,这是交互范式的根本转变。
模型能力也在同步跃迁。Claude Opus 4.6、GPT-5.3 这些新一代跟半年前完全不是一个量级。上一代搞不定的任务,新一代可能轻松解决;上一代需要你精心构造 prompt 才能勉强完成的事,新一代一句大白话就行。如果你还停在 Chat 阶段的认知里,拿着旧模型、旧工具得出"AI 不行"的结论,然后因此拒绝 Agent First——这个推理链条从第一步就错了。
所以,要舍得为 AI 付费,模型订阅和工具订阅都是。从投资回报率的角度看,这可能是当下性价比最高的个人投资——用最少的钱,撬动最大的生产力杠杆。一个月几百美元的订阅费,换来的是一个能力不断增长的执行者。你在别的地方省出来的时间和精力,价值远超这个成本。
第二,Agent 的上限是你。
AI 是认知的杠杆。杠杆能放大力量,但它放大的是你已有的力量。
你懂架构设计,Agent 能帮你把设计落地得更快更完整。你懂性能优化,Agent 能帮你跑 benchmark、分析瓶颈、实施优化方案。你懂业务逻辑,Agent 能帮你把逻辑翻译成代码。它放大的是你的认知,让你快速获得"完成事情"的能力。
但反过来,对于你完全不懂的领域,Agent 对你而言约等于零。不是说它不会做——它可能做得出来——而是你没有能力判断它做得对不对。你不知道该问什么问题,不知道怎么验证结果,不知道哪些地方可能埋坑。调度者最核心的能力在于判断。而判断力来自你自己的认知积累。
所以 Agent First 不是"什么都交给 AI"。它是一种分工策略:你负责方向、判断和决策,Agent 负责执行和加速。 你的认知越深,能委派的范围越大,杠杆效应越强。反过来,如果你自己没有足够的判断力,委派得越多,翻车的概率越高,而且你还发现不了翻车了。
第三,输出质量取决于你给的输入。
这一点很多人没意识到。大部分人用 AI 的方式是这样的:打开对话框,输入"帮我生成一个 PPT",然后等结果。
你站在 AI 的角度想想——什么 PPT?给谁看的?什么主题?多少页?什么风格?要不要配图?图从哪来?模板用公司的还是通用的?在哪个软件里做?这些问题你一个都没说,AI 只能猜。猜对了算运气好,猜错了你就觉得"AI 不行"。
不是 AI 不行,是你给的上下文太少了。Agent 的输出是你输入的函数——输入越丰富、越精确,输出就越靠谱。一句"帮我生成 PPT"和一段"用公司模板,给技术总监看的架构评审材料,重点讲微服务拆分方案,15 页以内,每页配架构图",出来的东西完全是两个水平。
回头看开头配服务器那个例子,我看起来只说了一句话,但"参考机器"本身就是最完整的上下文——所有该装的工具、该配的环境变量,都在那台机器上摆着,不需要我一条条列出来。上下文不一定是你打出来的文字,也可以是你指向的一个已有系统。
这也是为什么前面花了那么大篇幅讲 skill 和飞轮。当你把一个流程沉淀成 skill 的时候,你本质上是在做一件事:把上下文固化下来。你不需要每次都告诉 AI “用哪个图床、格式是什么、上传完链接怎么拼”——这些信息在 skill 里已经写死了。你只需要说一句"上传这张图",剩下的上下文 skill 自动补齐。
打磨 Agent 工作流的核心就一句话:不断把可复用的上下文沉淀成 skill,让每次委派都自带充足的背景信息。一开始可能要手动补很多上下文,但随着 skill 越建越多,你需要手动说的越来越少,Agent 自己能拿到的信息越来越多。飞轮一旦转起来,回报是指数级的——因为你喂给它的输入质量在持续提升,哪怕 AI 能力没变化,效果也在变好。
这几个前提合在一起,指向同一个结论:在 Agent First 的框架里,对自己的投资和对工具的投资同样重要。 持续学习让你的判断力更强,持续升级让你的执行层更强,持续沉淀让你的输入质量更高。飞轮才转得起来。
核心不是工具有多强。是你愿不愿意把"执行者"的位置让出来——同时持续让自己配得上"调度者"这个角色。
最后修改于 2026-02-27

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。