一个 Agent,
干不完一件像样的事。
这不是 Agent 不够强——是单 Agent 这种结构有天花板。
Skills 和 Multi-agent 不是两种新技术,是分工这个老问题的两种解法。
- 单 Agent 的 4 个天花板——什么时候你必须分工,不分就要翻车
- Skills 是分工的"轻量解"——一个 Agent 也能像团队那样干活
- Multi-agent 的 4 种协作模式——什么任务该用哪一种
- 6 个真实工作流 + 选型决策树 — 今天就能开始用
Agent / Skill / Multi-agent — 先把这三个词的边界画清楚
这一课所有讨论都建立在这三个词上。它们在市场上经常被混用、被替换、被打包成同一件事—— 但工程上有清晰的边界。 先把定义说清楚,下面的讨论才有意义。
- LLM — 大脑,做推理和决策
- Tools — 接外部能力的接口(API / 数据库 / 浏览器 / 文件系统…)
- Memory — 短期 context + 长期记忆(向量库 / 文件)
- Loop — 循环执行,直到任务完成 / 失败 / 触发停止条件
能自主决定下一步 = agent
只回答一个问题、没有下一步动作 = chatbot(不是 agent,不在本课讨论范围)
"AI 助手 / Copilot / 智能体" — 第 01 期讲过,多数是营销话术,不再讨论。
- 触发描述 — "什么场景下应该调用我"(让 agent 知道何时用)
- 输入输出契约 — 需要什么输入、产出什么形态的输出
- prompt — 这段任务的核心指令(可含 few-shot 示例)
- 工具子集 — 这个 skill 允许调用的工具(不是 agent 的全部工具)
仍然在同一个 agent 的 context 内运行 —— Skill 是 agent 的"内部模块",不是独立的 LLM 实例。
把 prompt 文件叫"Skill",跟把可复用函数叫"模块"是同一种命名 —— 重点不在词,在结构。
"199 元 1000 个 prompt 合集" — 那不是 Skill,那是静态 prompt 库,没有触发逻辑、没有输入输出契约、不可程序化调用。
- N 个 agent — 各自独立的 LLM + Tools + Memory + Loop(即 N 个完整 agent)
- 协议 — 怎么交换消息 / 状态(消息队列 / 共享文件 / 调用 API)
- 协调机制 — 谁拆任务、谁汇总、谁停止整个流程
- 失败处理 — 一个 agent 挂了 / 跑偏了,怎么办
agent 之间 context 真的独立 = multi-agent
在一个 prompt 里写"你扮演 A,再扮演 B"≠ multi-agent,那是角色扮演,A 和 B 共享同一个 context。
"我有 100 个 Skills 的 Agent" — 那是单 agent + 多 Skill,不是 multi-agent。这是市场上最常见的命名混淆。
同一个 Agent 干所有活,会以 4 种方式翻车
为什么需要 multi-agent 或 skills?因为单 Agent 在某种复杂度之后必然崩。 下面 4 个失败模式,每个都跟"agent 不够聪明"无关,是单一 context 这种结构本身的极限。
-
天花板 · 01 · CONTEXT DRIFT
任务超过 50 步后,前面的指令被新内容稀释
你给 agent 一个 system prompt + 任务目标,让它跑 80 步。 到第 50 步时,agent 实际上已经看不太到原始 system prompt 了——它在被自己最近的输出 + tool 调用结果淹没。 观察症状:开头执行得很好,后面突然开始走样、忘记规则、答非所问。 模型再强也救不了——这是 attention 机制 + 上下文长度的物理限制。
-
天花板 · 02 · TOOL OVERLOAD
同一个 Agent 装了 20+ 个工具,调用判断越来越乱
随着你给 agent 加越来越多的 tool(Gmail、Calendar、Notion、SQL、Web search、自定义 API...), 每次决策时它需要在 N 个 tool 之间选一个——选错就走偏。 实测:tool 数量超过 15 个后,agent 的 tool selection 准确率开始线性下降;超过 30 个,几乎不可用。 装得越多越无能——这是 Function Calling 的固有问题,不是 prompt 调教能解的。
-
天花板 · 03 · ERROR COMPOUNDING
单线程任务一旦中间出错,后面全部基于错信息往下推
agent 在第 12 步把客户名字读错了,从第 13 步开始的所有动作(查记录、写回复、发邮件)全是错的, 但 agent 自己看不出来——它没有第二双眼睛检查它的中间结果。 到第 30 步你发现不对,回去查日志,发现问题源头是第 12 步——但这一切已经发生在生产环境。 这是单 agent 模式最常见的事故来源。
-
天花板 · 04 · ROLE COLLAPSE
同时要它"做+检查+报告",哪一样都做不好
你写了一段巨长的 prompt:先研究市场、再起草文案、再批判性 review、最后输出 markdown 报告。 agent 在每个角色里都浅尝辄止——因为它没法在同一次推理里真正切换思维模式。 尤其是 "Drafter + Critic" 不分开,几乎一定会自圆其说:写文案的它和批评文案的它本就是同一个推理流。
Skills——分工的"轻量解"
很多人以为 Skill 是给 Agent 加新能力的方式。 更准确的说法是:Skill 是给一个 Agent 内部做分工——把工作流的某一段抽成可调用的独立单元,让 Agent 在该用的时候调,不需要的时候不污染主上下文。
一个 Skill 包含什么
标准的 Skill 文件(比如 Claude Skills 的 SKILL.md)四要素:
Skill 适合什么场景
- 一个 Agent 要做多种类型的活:与其在一个巨长 prompt 里塞 10 种 if-else,不如每种做一个 Skill,agent 自己判断调哪个
- 某段工作流被多处复用:邮件分类、CSV 探索这种通用动作,写成 Skill 后多个高层 agent 都能调
- 需要版本化 / 可审计:Skill 是文件,git 管理;prompt 改了能 diff,错了能 revert
- 团队多人协作维护同一个 agent:每个人改自己负责的 Skill 文件,不会互相覆盖一个巨型 system prompt
3 个能跑通的 Skill 例子
Multi-agent——分工的"重型解"
当 Skills 不够用——任务太大、单 context 装不下、或者必须有独立审核者—— 就要上 Multi-agent。这里的"多"不是个数,是独立 context:每个 agent 看到的世界不一样,互相之间通过协议交换状态。
判断"是不是真 multi-agent",看一个标准:两个 agent 各自的 context 窗口是不是真的独立。 如果只是同一个 system prompt 里 "you are agent A...you are agent B",那只是个角色扮演——不是 multi-agent。
真正的 multi-agent 有 4 种典型协作模式。它们解决的问题不同,复杂度不同。多数生产系统是这 4 种的组合。
-
模式 · 01 · MANAGER–WORKER
一个 Manager 拆任务,N 个 Worker 各自执行
最常见、最容易理解。Manager agent 收到一个大任务,把它拆成 N 个子任务, 分发给专门的 Worker agents,每个 worker 用独立 context 跑自己那一段, 完成后汇报给 manager,manager 汇总并出最终结果。
·MANAGER拆成 8 个章节 → 分配给 8 个 Researcher·WORKER ×8每个独立查资料、写自己那章 · 互不干扰·MANAGER收齐 8 份 → 统一风格 → 写引言 + 结论WHEN TO USE任务能被静态拆分 · 子任务之间没有强依赖 -
模式 · 02 · PIPELINE
Agent A → Agent B → Agent C,每步处理完丢给下一步
流水线式。每个 agent 负责一个阶段的转化,前一个 agent 的输出 = 后一个 agent 的输入。 和 Manager–Worker 的区别:流水线是串行单线,没有中央调度者。
01RESEARCHER挖 10 篇同行爆款 → 提炼共性02IDEATOR基于研究 → 出 7 个选题 + 大纲03WRITER写完整草稿04EDITOR校稿、改人设语料05PUBLISHER排版 + 多平台适配 + 排期WHEN TO USE任务是一条线性产业链 · 每段都有专门技能要求 -
模式 · 03 · SPECIALIST ROUNDTABLE
多个专家 Agent 并行看同一个问题,最后一个 Synthesizer 汇总
"三家会诊"模式。同一个输入同时送给多个专家 agent, 每个 agent 用自己的专业 lens 看,给出独立判断;最后一个 synthesizer 把多视角合并。 重点是并行——专家之间互不沟通,避免彼此污染。
·QUANT看技术面 (双均线、RSI、量价) · 独立打分·FUNDAMENTAL看财报、行业、估值 · 独立打分·SENTIMENT看新闻、社媒、机构动作 · 独立打分·RISK看仓位、波动、关联性 · 独立打分·SYNTHESIZER汇总 4 个独立结论 → 出决策建议WHEN TO USE需要多个独立视角 · 怕"单一思维定式" -
模式 · 04 · ADVERSARIAL
Drafter 写,Critic 挑刺,反复迭代到收敛
对抗式。一个 agent 负责产出(Drafter),另一个 agent 天职就是找问题(Critic)。 两者来回多轮,直到 Critic 没意见或迭代次数到上限。 解决的核心问题:单 agent "自己审自己" 几乎一定自圆其说。
01DRAFTER读 issue → 写实现 + 测试 → 提交 v102CRITIC挑刺 (边界、安全、性能、可读性) → 列改进项03DRAFTER基于反馈改 → 提交 v204CRITIC再 review → 直到通过或达 3 轮WHEN TO USE产出质量是死命题 · 错了代价大 (代码 / 合同 / 法律意见)
每个工作流都是 §03/§04 讲过的一种结构
下面 6 个系统,覆盖 4 种 multi-agent 模式 + Skills 组合。 挑一个跟你工作最近的——复制结构,换里面的 prompt 和工具——多数情况能直接跑通。 每条都标了用的是哪种模式,方便你回头对照 §03/§04 看。
-
CASE · 01 · 客户支持 · MANAGER-WORKER 单工单 8min → 1min · 人手减半
200 张工单 5 个人处理不完——分类用 manager,处理用 worker
反共识:客服效率瓶颈不是手速,是分类。 一个 manager 用 30 秒读完工单 + 分类,胜过 5 个客服各自 10 分钟的"先看是什么"。 然后每类工单交给专门 worker,每个 worker 只见过自己类别的训练上下文,处理质量比 generalist 高。
01INTAKEZendesk webhook · 新工单触发02MANAGER读工单 · 5 类分类(退款 / 技术 / 投诉 / 咨询 / 升级)03WORKER A退款 skill · 查订单 + 起草退款流程04WORKER B技术 skill · 查日志 + 起草修复步骤05WORKER C投诉 skill · 起草道歉 + 升级到人工06SUPERVISOR随机抽 5% 由人工 review · 反馈优化 managerSETUP2 周 · ROI8min → 1min · 客服团队 5 → 2 人 -
CASE · 02 · 销售触达 · PIPELINE 触达 3× · 回复率 +40%
200 个 prospect,4 段流水线干完 1 个 SDR 4 天的活
反共识:个性化邮件慢,不是写得慢——是"研究 + 写"在同一个人脑里来回切换慢。 把这两步分成两个 agent,再加 sender + tracker,整个 pipeline 跑起来一个人能干四个人的活。
01RESEARCHER输入公司列表 · 拉财报 / 新闻 / 决策链 / 痛点信号02PERSONALIZER基于研究 · 写定制开场白 + 价值 hook03SENDER按最佳时间发送 · 跟踪打开 / 点击04TRACKER3 天未回 → 触发不同跟进策略(A/B)05FEEDBACK回复内容 → 回到 Personalizer 调写作风格SETUP1 周 · ROI每周触达 200 个 prospect · 回复率从 5% → 7% -
CASE · 03 · 代码 Review · ADVERSARIAL 生产 bug -50% · PR 通过率 +30%
Drafter + 3 个 Critic 互喷,bug 量减半
反共识:让同一个 agent 写代码又 review 代码——它一定会觉得自己写得挺好。 必须用独立 context 的 critic agent,并且每个 critic 只负责一类风险。 安全 critic 不会被性能问题分心,性能 critic 不会忽略可读性——三个 critic 一起喷,才能让 drafter 真的改。
01DRAFTER读 issue + 影响面 · 写实现 + 单测 · 提交 v102CRITIC.SECSQL 注入 / XSS / 权限边界 / secret 泄露03CRITIC.PERFN+1 / 死循环 / O(n²) / 缓存缺失04CRITIC.READ命名 / 抽象层级 / 注释 / dead code05DRAFTER合并 3 份反馈 → 出 v2 · 最多迭代 3 轮06HUMAN你只看终版 + 各 critic 的最终 verdictSETUP3 天 · ROIPR review 时间从 30min → 5min · 生产 bug -50% -
CASE · 04 · 竞品 / 市场情报 · ROUNDTABLE 单标的调研 1 周 → 1 小时
4 个专家 agent 并行看同一家公司,最后 synthesizer 出威胁评级
反共识:让一个 generalist agent 写一份"完整竞品报告"——它会写得四平八稳但没有 insight。 用 4 个 specialist agent 并行看同一家公司,每个只看自己的领域,最后 synthesizer 合并—— 得到的报告比一个 agent 的强 3-5 倍,因为视角真的独立了。
·TECH技术栈 / 产品矩阵 / 工程能力 / 招聘信号·FINANCIAL融资节奏 / 财报 / 估值 / 烧钱速度·GTM渠道 / 定价 / 营销动作 / 客户基础·PEOPLE高管变动 / 团队规模 / 关键人物 X 动态★SYNTHESIZER汇总 4 个独立结论 · 出"威胁等级 + 你该做什么"SETUP3 天 · ROI竞品调研 1 周 → 1 小时 · 月度刷新 5 个标的 -
CASE · 05 · 内容生产 · HYBRID(Pipeline + Adversarial) 单人单日 1 篇 → 5 篇
Pipeline 串 4 站 + 中间嵌一段 Adversarial,质量比单 agent 高 + 量翻 5 倍
反共识:99% 的"AI 写作工具"是单 agent 跑全流程——结果是 AI 味浓 + 视角单一。 真正能稳定产出的内容工厂是混合结构:Pipeline 提供流水线效率,关键的"写 + 改"那站用 Adversarial 提供质量。
01RESEARCHER扫同行 + Perplexity Deep Research · 出选题 + 资料02aWRITER基于资料写初稿 · 按人设语料调 voice02bEDITOR ⟷挑刺 (节奏 / 钩子 / 反共识强度 / AI 味)02cWRITER ⟷改 · 再 review · 最多 3 轮直到 EDITOR pass03ADAPTER一稿多平台 (Twitter / 小红书 / 公众号 / YouTube 描述)04SCHEDULERBuffer / Hypefury 排期 + 数据回流SETUP2 周(建人设语料) · ROI单人 1 篇/天 → 5 篇/天 · AI 味检测下降明显 -
CASE · 06 · 跨库数据探索 · MANAGER-WORKER 多表关联分析 4h → 15min
50 张表关联分析——一个 Agent 装不下,10 个 Worker 并行查
反共识:数据分析师最头疼的不是写 SQL,是10 张表的 schema 加起来塞不进一个 agent 的 context。 把"理解 schema"这一步分到各 worker(每个 worker 只熟悉一张表),manager 只负责拆问题 + 拼答案—— 一个本来要"上下文塞不下"的任务,现在能 10 分钟交差。
01MANAGER读用户问题 · 拆成 N 个独立子查询(每个只查 1-2 张表)02WORKER ×N每个 worker 用独立 context · 只装自己负责的 schema03WORKER ×N各自跑 SQL · 校验结果 · 输出结构化数据04MANAGER收齐 N 份子结果 · 跨结果 JOIN / 计算 · 出图05MANAGER写中文 insight + 异常提示SETUP1 周 · ROI本来 context 装不下的任务 · 现在能跑通 · 4h → 15min
单 Agent · Skill · Multi-agent — 什么时候选什么
选型不要看"看起来高不高级"——看你的任务有没有触发某个具体信号。 下面 3 个判断题,按顺序问,停在第一个 YES。
-
LEVEL · 01 · SINGLE AGENT
你的任务能在 10 步内完成、且不会反复发生?
如果是:不要上 Skill,更不要上 Multi-agent。 你只需要一个 ChatGPT / Claude 窗口 + 一段 prompt。Skills 和 Multi-agent 都有维护成本——任务不重复就别立基础设施。
触发信号:每周 0-1 次的临时任务 · 单一职能 · 无并行需求
真实例子:写一封一次性邮件 / 调研一个临时问题 / 查一份资料 -
LEVEL · 02 · SINGLE AGENT + SKILLS
同一个 Agent 要做 5+ 种类型的活,或者某段工作流反复复用?
如果是:上 Skills,但还不需要 Multi-agent。 Skills 让一个 Agent 像一个团队那样干活——同一个 context,可调用模块化能力。维护成本中等:要写 SOP,但只有一个 agent 在跑。
触发信号:同一 agent 处理 5+ 类任务 · 某段工作流被多处复用 · 需要团队协作维护 prompt
真实例子:个人助理(邮件 + 日历 + Notion + 备忘) / 一体化客服(多类工单 + 知识库 + 升级) -
LEVEL · 03 · MULTI-AGENT
任一信号触发:context 超载 / 需要独立审核者 / 需要真并行?
如果是:上 Multi-agent。但准备好为协议设计、调试链路、监控状态多花 5-10×的工作量。 Multi-agent 不是"更高级的版本",是不得不分工时的选择。
触发信号:单 agent 跑过 50 步会漂移 · 必须独立眼挑刺 · 4+ 子任务可并行 · context 装不下完整 schema·MANAGER-WORKER任务能静态拆分 · 子任务互相独立·PIPELINE任务是顺序转化 · 每步有专门技能·ROUNDTABLE需要多个独立视角 · 怕思维定式·ADVERSARIAL质量是死命题 · 错代价大 (代码 / 合同)REMEMBER多数生产系统是 2-3 种模式的嵌套组合
关于 Multi-agent 和 Skills,市场上 5 句不太对的话
Ep 01 讲的是"AI 应用周边市场"——卖焦虑、卖确定性。 这一节聚焦 Ep 02 的两个词:multi-agent 和 skills 各自被市场加工成了什么。 看清楚之后,你能更快判断一个产品 / 文章 / 课程到底有没有真东西。
-
观察 · 01 · LANGGRAPH WRAPPER
"Multi-agent Platform / OS"
2024-2026 涌出大量"Multi-agent OS / 平台"创业项目。多数本质是 LangGraph + 一层 UI, agent 之间根本没有真正独立的 context。判断标准很简单:问他们"两个 agent 各自能看到什么 system prompt?"—— 答不出具体边界,就是个 wrapper。
-
观察 · 02 · MORE TOOLS > BETTER AGENT
"我们的 Agent 装了 100+ Skills"
"Skills 数量"被当成卖点,但 §02-02 的 Tool Overload 天花板对 skills 同样成立—— 装得越多,agent 选择哪个 skill 的判断越乱。 生产实测:超过 15-20 个 skills 后,召回准确率断崖式下跌。 装精的 10 个 > 装杂的 50 个。
-
观察 · 03 · ACADEMIC vs PRACTICAL
"Multi-agent 是通向 AGI 的路径"
这是学术界辩了 20 年的话题(agent-based modeling, swarm intelligence, multi-agent reinforcement learning…), 跟你今天搭一个能跑通客服工单的系统没有关系。 这种宏大叙事经常被用来给一个简单的 LangGraph demo 装门面——听到就先记住:再宏大也得能跑工单。
-
观察 · 04 · PROPRIETARY FRAMING
"Skill 是 Anthropic 的专有功能"
错。Skill 不是某个厂商的功能,是一种设计模式。 它跟 OpenAI Custom GPT Actions、LangChain Tools、自己写的 modular prompt 文件、 甚至 Unix 工具 + 一段 README 文档,本质都是同一回事——把可复用的能力打包成可被发现 + 可被调用的单元。 谁封装得最干净是另一回事,但概念不归任何一家。
-
观察 · 05 · WRONG ORDER
"复杂任务必须用 Multi-agent"
通常说反了。复杂任务最该做的第一件事是SOP 化——把它拆成可重复的步骤、明确每步的输入输出。 做完 SOP 之后,多数任务的"复杂度"会下降到能用单 agent + skills 解决;只有真正剩下的、需要并行 / 独立审核的部分才上 multi-agent。 顺序搞反——直接堆 multi-agent——结果是用昂贵的协调成本掩盖你没想清楚的工作流。
从单 Agent 走向 Multi-agent 的 12 周
这是 Ep 01 的 90 天路径的延伸版—— 假设你已经能用单 agent + 1 个 Project 解决日常任务(Ep 01 Week 9-12 走通的状态)。 接下来 12 周,从「单 agent + 1 Skill」走到「3 agent 协作系统」。 每周一个失败信号,亮了就回退。
-
WEEK 1 – 2 · 找候选
列出你工作流里 3 个最高频的子任务
不是找"想用 AI 替代的活"——是找"每周做 5+ 次、每次步骤几乎一样"的事。 这些是 Skill 的天然候选。写下来:任务名 / 频率 / 输入 / 输出 / 当前耗时。 失败信号:列不出 3 个——说明你的工作流还没规律化,回 Ep 01。 怎么办:继续做一周纯人工,每做一件事记一笔。
-
WEEK 3 – 4 · 写第一个 Skill
挑最痛的那个候选 — 写成 SKILL.md 跑通
按 §03 那 4 要素(DESCRIPTION / CONTRACT / PROMPT / TOOLS)写一个独立文件。 在 Claude Code 或自己的 agent 里挂上,连跑一周——每次需要这个任务时只调它,不手写 prompt。 失败信号:第 4 周末你还在频繁手动改 SKILL.md 里的 prompt。 怎么办:不是 Skill 不行——是你选的任务还不够 SOP。回去拆得更具体。
-
WEEK 5 – 8 · 装满一个 Agent
写 3-5 个 Skill,装到同一个 Agent
把 Week 1-2 列的另外 2-4 个任务也做成 Skill。 现在你的 agent 应该能在一个 context 里处理 5 种不同类型的活—— 体验上,从"通用助理"升级成"有专业能力的同事"。 失败信号:agent 经常调错 Skill / 把两个 Skill 的逻辑混着用。 怎么办:说明你装太多了——压回 3 个最高频的,剩下的留到 Multi-agent 阶段。
-
WEEK 9 – 12 · 第一次分工
挑一个跑不通的复杂任务,设计 2-3 agent 协作
找一个 §02 天花板真撞到的任务——单 agent 跑过 50 步崩、或需要独立 critic、或需要并行处理。 按 §04 4 种模式选一种,搭一个最小可用 multi-agent 系统。 不要做大、做完整——做能跑通最简单版本即可。 失败信号:到第 12 周还在调 prompt / 协议,跑不通 end-to-end。 怎么办:多数时候是你想搭的系统太复杂——拆到只剩两个 agent,看哪个真有必要独立。
12 周后你该能回答这个问题:
"我现在每天工作的哪一段,是同一个 Agent 调一组 Skill 跑完的?哪一段是几个 Agent 协作跑完的?"
能具体指出这两段、有产出物、有日志——你就跨过了 Ep 01 → Ep 02 的边界。
回答不出来——说明你还是在用"一个 ChatGPT 窗口"在做事,没"搭系统"。
从单 Agent 到 Multi-agent,差的不是新概念,是你
选一个工作流坐下来真搭
这一课讲完,你能分清单 Agent / Skills / Multi-agent 各自该在哪用。 但「分得清」≠「搭得出」。 下一节课讲哪个题,取决于这一课的内容你有没有真正落到一个跑得动的工作流上。
每周一个完整可复制的 Agent 案例——prompt、工具、步骤全公开。
这个 Newsletter 不"鼓励"你,能不能跑通是你的事。
← EP 01 · What is AI Agent · EP 02(你在这里) · EP 03 (coming)