Agent 101 · 第 02 期 · Multi-agent & Skills

§ 01 · 三个定义

Agent / Skill / Multi-agent — 先把这三个词的边界画清楚

这一课所有讨论都建立在这三个词上。它们在市场上经常被混用、被替换、被打包成同一件事—— 但工程上有清晰的边界。先把定义说清楚，下面的讨论才有意义。

01Agent

一个能"感知 → 规划 → 执行 → 反思"循环跑下去的 LLM 实例 —— 不是问一答一，是给目标让它自己干活。

由什么组成

LLM — 大脑，做推理和决策
Tools — 接外部能力的接口（API / 数据库 / 浏览器 / 文件系统…）
Memory — 短期 context + 长期记忆（向量库 / 文件）
Loop — 循环执行，直到任务完成 / 失败 / 触发停止条件

关键判定

能自主决定下一步 = agent

只回答一个问题、没有下一步动作 = chatbot（不是 agent，不在本课讨论范围）

易混淆

"AI 助手 / Copilot / 智能体" — 第 01 期讲过，多数是营销话术，不再讨论。

02Skill

Agent 内部可被调用的模块化能力 —— 把工作流某段固化成独立单元，需要时调，不需要时不污染主上下文。

由什么组成

触发描述 — "什么场景下应该调用我"（让 agent 知道何时用）
输入输出契约 — 需要什么输入、产出什么形态的输出
prompt — 这段任务的核心指令（可含 few-shot 示例）
工具子集 — 这个 skill 允许调用的工具（不是 agent 的全部工具）

关键判定

仍然在同一个 agent 的 context 内运行 —— Skill 是 agent 的"内部模块"，不是独立的 LLM 实例。

把 prompt 文件叫"Skill"，跟把可复用函数叫"模块"是同一种命名 —— 重点不在词，在结构。

易混淆

"199 元 1000 个 prompt 合集" — 那不是 Skill，那是静态 prompt 库，没有触发逻辑、没有输入输出契约、不可程序化调用。

03Multi-agent

多个 agent 在独立 context 窗口中协作 —— 每个看世界的一部分，通过协议交换压缩过的状态。

由什么组成

N 个 agent — 各自独立的 LLM + Tools + Memory + Loop（即 N 个完整 agent）
协议 — 怎么交换消息 / 状态（消息队列 / 共享文件 / 调用 API）
协调机制 — 谁拆任务、谁汇总、谁停止整个流程
失败处理 — 一个 agent 挂了 / 跑偏了，怎么办

关键判定

agent 之间 context 真的独立 = multi-agent

在一个 prompt 里写"你扮演 A，再扮演 B"≠ multi-agent，那是角色扮演，A 和 B 共享同一个 context。

易混淆

"我有 100 个 Skills 的 Agent" — 那是单 agent + 多 Skill，不是 multi-agent。这是市场上最常见的命名混淆。

§ 02 · 单 Agent 的天花板

同一个 Agent 干所有活，会以 4 种方式翻车

为什么需要 multi-agent 或 skills？因为单 Agent 在某种复杂度之后必然崩。下面 4 个失败模式，每个都跟"agent 不够聪明"无关，是单一 context 这种结构本身的极限。

天花板 · 01 · CONTEXT DRIFT
任务超过 50 步后，前面的指令被新内容稀释

你给 agent 一个 system prompt + 任务目标，让它跑 80 步。到第 50 步时，agent 实际上已经看不太到原始 system prompt 了——它在被自己最近的输出 + tool 调用结果淹没。 观察症状：开头执行得很好，后面突然开始走样、忘记规则、答非所问。模型再强也救不了——这是 attention 机制 + 上下文长度的物理限制。
天花板 · 02 · TOOL OVERLOAD
同一个 Agent 装了 20+ 个工具，调用判断越来越乱

随着你给 agent 加越来越多的 tool（Gmail、Calendar、Notion、SQL、Web search、自定义 API...）， 每次决策时它需要在 N 个 tool 之间选一个——选错就走偏。实测：tool 数量超过 15 个后，agent 的 tool selection 准确率开始线性下降；超过 30 个，几乎不可用。装得越多越无能——这是 Function Calling 的固有问题，不是 prompt 调教能解的。
天花板 · 03 · ERROR COMPOUNDING
单线程任务一旦中间出错，后面全部基于错信息往下推

agent 在第 12 步把客户名字读错了，从第 13 步开始的所有动作（查记录、写回复、发邮件）全是错的，但 agent 自己看不出来——它没有第二双眼睛检查它的中间结果。到第 30 步你发现不对，回去查日志，发现问题源头是第 12 步——但这一切已经发生在生产环境。这是单 agent 模式最常见的事故来源。
天花板 · 04 · ROLE COLLAPSE
同时要它"做+检查+报告"，哪一样都做不好

你写了一段巨长的 prompt：先研究市场、再起草文案、再批判性 review、最后输出 markdown 报告。 agent 在每个角色里都浅尝辄止——因为它没法在同一次推理里真正切换思维模式。 尤其是 "Drafter + Critic" 不分开，几乎一定会自圆其说：写文案的它和批评文案的它本就是同一个推理流。

§ 03 · 解法 A · Skills

Skills——分工的"轻量解"

很多人以为 Skill 是给 Agent 加新能力的方式。更准确的说法是：Skill 是给一个 Agent 内部做分工——把工作流的某一段抽成可调用的独立单元，让 Agent 在该用的时候调，不需要的时候不污染主上下文。

一个 Skill 包含什么

标准的 Skill 文件（比如 Claude Skills 的 SKILL.md）四要素：

SKILL.mdemail-triage / 一个最小可用结构

01DESCRIPTION什么场景下调用我（agent 决策依据）

02CONTRACT输入是什么 / 输出是什么 / 错误怎么报

03PROMPT这段任务的核心指令（可含 few-shot 示例）

04TOOLS这个 skill 允许用的工具子集（不是 agent 全部工具）

CORE INSIGHTSkill = 工作流模块化 · 跟"功能扩展"无关

Skill 适合什么场景

一个 Agent 要做多种类型的活：与其在一个巨长 prompt 里塞 10 种 if-else，不如每种做一个 Skill，agent 自己判断调哪个
某段工作流被多处复用：邮件分类、CSV 探索这种通用动作，写成 Skill 后多个高层 agent 都能调
需要版本化 / 可审计：Skill 是文件，git 管理；prompt 改了能 diff，错了能 revert
团队多人协作维护同一个 agent：每个人改自己负责的 Skill 文件，不会互相覆盖一个巨型 system prompt

3 个能跑通的 Skill 例子

SKILL 01email-triage

·when用户问"今天的邮件" / "邮箱状态" / 提到 Gmail

·does读 Gmail → 5 类分类 → 起草回复 → 优先级排序

·toolsGmail Connector · 不需要其他

·output结构化 to-do JSON + 草稿列表

SKILL 02csv-explore

·when用户上传 CSV / 提到"看一下数据" / "做个分析"

·does读取 → schema 推断 → 跑 pandas → 出图 + 写 insight

·toolsCode Interpreter · matplotlib

·output3 张关键图 + 3 句话洞察

SKILL 03meeting-summary

·when用户粘录音转录 / 提到"刚开完会" / Granola 输出

·does提取决策 + 行动项 + 负责人 + DDL + 起草跟进邮件

·tools无外部 tool（纯 prompt skill）

·outputMarkdown 纪要 + 邮件草稿

§ 04 · 解法 B · Multi-agent

Multi-agent——分工的"重型解"

当 Skills 不够用——任务太大、单 context 装不下、或者必须有独立审核者—— 就要上 Multi-agent。这里的"多"不是个数，是独立 context：每个 agent 看到的世界不一样，互相之间通过协议交换状态。

判断"是不是真 multi-agent"，看一个标准：两个 agent 各自的 context 窗口是不是真的独立。如果只是同一个 system prompt 里 "you are agent A...you are agent B"，那只是个角色扮演——不是 multi-agent。

真正的 multi-agent 有 4 种典型协作模式。它们解决的问题不同，复杂度不同。多数生产系统是这 4 种的组合。

模式 · 01 · MANAGER–WORKER
一个 Manager 拆任务，N 个 Worker 各自执行

最常见、最容易理解。Manager agent 收到一个大任务，把它拆成 N 个子任务，分发给专门的 Worker agents，每个 worker 用独立 context 跑自己那一段，完成后汇报给 manager，manager 汇总并出最终结果。

USE写一份 50 页调研报告 · Manager–Worker 实现

·MANAGER拆成 8 个章节 → 分配给 8 个 Researcher

·WORKER ×8每个独立查资料、写自己那章 · 互不干扰

·MANAGER收齐 8 份 → 统一风格 → 写引言 + 结论

WHEN TO USE任务能被静态拆分 · 子任务之间没有强依赖
模式 · 02 · PIPELINE
Agent A → Agent B → Agent C，每步处理完丢给下一步

流水线式。每个 agent 负责一个阶段的转化，前一个 agent 的输出 = 后一个 agent 的输入。和 Manager–Worker 的区别：流水线是串行单线，没有中央调度者。

USE内容生产 · Pipeline 实现

01RESEARCHER挖 10 篇同行爆款 → 提炼共性

02IDEATOR基于研究 → 出 7 个选题 + 大纲

03WRITER写完整草稿

04EDITOR校稿、改人设语料

05PUBLISHER排版 + 多平台适配 + 排期

WHEN TO USE任务是一条线性产业链 · 每段都有专门技能要求
模式 · 03 · SPECIALIST ROUNDTABLE
多个专家 Agent 并行看同一个问题，最后一个 Synthesizer 汇总

"三家会诊"模式。同一个输入同时送给多个专家 agent，每个 agent 用自己的专业 lens 看，给出独立判断；最后一个 synthesizer 把多视角合并。重点是并行——专家之间互不沟通，避免彼此污染。

USE股票决策 · Roundtable 实现

·QUANT看技术面 (双均线、RSI、量价) · 独立打分

·FUNDAMENTAL看财报、行业、估值 · 独立打分

·SENTIMENT看新闻、社媒、机构动作 · 独立打分

·RISK看仓位、波动、关联性 · 独立打分

·SYNTHESIZER汇总 4 个独立结论 → 出决策建议

WHEN TO USE需要多个独立视角 · 怕"单一思维定式"
模式 · 04 · ADVERSARIAL
Drafter 写，Critic 挑刺，反复迭代到收敛

对抗式。一个 agent 负责产出（Drafter），另一个 agent 天职就是找问题（Critic）。两者来回多轮，直到 Critic 没意见或迭代次数到上限。解决的核心问题：单 agent "自己审自己" 几乎一定自圆其说。

USE代码 Review · Adversarial 实现

01DRAFTER读 issue → 写实现 + 测试 → 提交 v1

02CRITIC挑刺 (边界、安全、性能、可读性) → 列改进项

03DRAFTER基于反馈改 → 提交 v2

04CRITIC再 review → 直到通过或达 3 轮

WHEN TO USE产出质量是死命题 · 错了代价大 (代码 / 合同 / 法律意见)

§ 05 · 6 个真实工作流

每个工作流都是 §03/§04 讲过的一种结构

下面 6 个系统，覆盖 4 种 multi-agent 模式 + Skills 组合。挑一个跟你工作最近的——复制结构，换里面的 prompt 和工具——多数情况能直接跑通。每条都标了用的是哪种模式，方便你回头对照 §03/§04 看。

CASE · 01 · 客户支持 · MANAGER-WORKER 单工单 8min → 1min · 人手减半

200 张工单 5 个人处理不完——分类用 manager，处理用 worker

反共识：客服效率瓶颈不是手速，是分类。 一个 manager 用 30 秒读完工单 + 分类，胜过 5 个客服各自 10 分钟的"先看是什么"。然后每类工单交给专门 worker，每个 worker 只见过自己类别的训练上下文，处理质量比 generalist 高。

WORKFLOW客服工单自动分流（Manager-Worker · 含 Skill）

01INTAKEZendesk webhook · 新工单触发

02MANAGER读工单 · 5 类分类（退款 / 技术 / 投诉 / 咨询 / 升级）

03WORKER A退款 skill · 查订单 + 起草退款流程

04WORKER B技术 skill · 查日志 + 起草修复步骤

05WORKER C投诉 skill · 起草道歉 + 升级到人工

06SUPERVISOR随机抽 5% 由人工 review · 反馈优化 manager

SETUP2 周　·　ROI8min → 1min · 客服团队 5 → 2 人

Claude API Zendesk / Intercom n8n PostgreSQL
CASE · 02 · 销售触达 · PIPELINE 触达 3× · 回复率 +40%

200 个 prospect，4 段流水线干完 1 个 SDR 4 天的活

反共识：个性化邮件慢，不是写得慢——是"研究 + 写"在同一个人脑里来回切换慢。把这两步分成两个 agent，再加 sender + tracker，整个 pipeline 跑起来一个人能干四个人的活。

WORKFLOWCold outreach（Pipeline · 4 段串行）

01RESEARCHER输入公司列表 · 拉财报 / 新闻 / 决策链 / 痛点信号

02PERSONALIZER基于研究 · 写定制开场白 + 价值 hook

03SENDER按最佳时间发送 · 跟踪打开 / 点击

04TRACKER3 天未回 → 触发不同跟进策略（A/B）

05FEEDBACK回复内容 → 回到 Personalizer 调写作风格

SETUP1 周　·　ROI每周触达 200 个 prospect · 回复率从 5% → 7%

Apollo Clay Claude API Lemlist / Instantly HubSpot
CASE · 03 · 代码 Review · ADVERSARIAL 生产 bug -50% · PR 通过率 +30%

Drafter + 3 个 Critic 互喷，bug 量减半

反共识：让同一个 agent 写代码又 review 代码——它一定会觉得自己写得挺好。 必须用独立 context 的 critic agent，并且每个 critic 只负责一类风险。安全 critic 不会被性能问题分心，性能 critic 不会忽略可读性——三个 critic 一起喷，才能让 drafter 真的改。

WORKFLOWPR 多视角 Review（Adversarial · 1 写 3 critic）

01DRAFTER读 issue + 影响面 · 写实现 + 单测 · 提交 v1

02CRITIC.SECSQL 注入 / XSS / 权限边界 / secret 泄露

03CRITIC.PERFN+1 / 死循环 / O(n²) / 缓存缺失

04CRITIC.READ命名 / 抽象层级 / 注释 / dead code

05DRAFTER合并 3 份反馈 → 出 v2 · 最多迭代 3 轮

06HUMAN你只看终版 + 各 critic 的最终 verdict

SETUP3 天　·　ROIPR review 时间从 30min → 5min · 生产 bug -50%

Claude Code GitHub Actions Aider Cursor
CASE · 04 · 竞品 / 市场情报 · ROUNDTABLE 单标的调研 1 周 → 1 小时

4 个专家 agent 并行看同一家公司，最后 synthesizer 出威胁评级

反共识：让一个 generalist agent 写一份"完整竞品报告"——它会写得四平八稳但没有 insight。 用 4 个 specialist agent 并行看同一家公司，每个只看自己的领域，最后 synthesizer 合并—— 得到的报告比一个 agent 的强 3-5 倍，因为视角真的独立了。

WORKFLOW竞品多视角分析（Roundtable · 4 并行 + 1 合并）

·TECH技术栈 / 产品矩阵 / 工程能力 / 招聘信号

·FINANCIAL融资节奏 / 财报 / 估值 / 烧钱速度

·GTM渠道 / 定价 / 营销动作 / 客户基础

·PEOPLE高管变动 / 团队规模 / 关键人物 X 动态

★SYNTHESIZER汇总 4 个独立结论 · 出"威胁等级 + 你该做什么"

SETUP3 天　·　ROI竞品调研 1 周 → 1 小时 · 月度刷新 5 个标的

Perplexity API Crunchbase LinkedIn API Claude Notion
CASE · 05 · 内容生产 · HYBRID（Pipeline + Adversarial）单人单日 1 篇 → 5 篇

Pipeline 串 4 站 + 中间嵌一段 Adversarial，质量比单 agent 高 + 量翻 5 倍

反共识：99% 的"AI 写作工具"是单 agent 跑全流程——结果是 AI 味浓 + 视角单一。 真正能稳定产出的内容工厂是混合结构：Pipeline 提供流水线效率，关键的"写 + 改"那站用 Adversarial 提供质量。

WORKFLOW内容工厂（Pipeline 主线 + Adversarial 嵌套）

01RESEARCHER扫同行 + Perplexity Deep Research · 出选题 + 资料

02aWRITER基于资料写初稿 · 按人设语料调 voice

02bEDITOR ⟷挑刺 (节奏 / 钩子 / 反共识强度 / AI 味)

02cWRITER ⟷改 · 再 review · 最多 3 轮直到 EDITOR pass

03ADAPTER一稿多平台 (Twitter / 小红书 / 公众号 / YouTube 描述)

04SCHEDULERBuffer / Hypefury 排期 + 数据回流

SETUP2 周（建人设语料）　·　ROI单人 1 篇/天 → 5 篇/天 · AI 味检测下降明显

Perplexity Claude Buffer / Hypefury Notion CapCut
CASE · 06 · 跨库数据探索 · MANAGER-WORKER 多表关联分析 4h → 15min

50 张表关联分析——一个 Agent 装不下，10 个 Worker 并行查

反共识：数据分析师最头疼的不是写 SQL，是10 张表的 schema 加起来塞不进一个 agent 的 context。把"理解 schema"这一步分到各 worker（每个 worker 只熟悉一张表），manager 只负责拆问题 + 拼答案—— 一个本来要"上下文塞不下"的任务，现在能 10 分钟交差。

WORKFLOW跨库探索（Manager-Worker · 解决 Context 容量）

01MANAGER读用户问题 · 拆成 N 个独立子查询（每个只查 1-2 张表）

02WORKER ×N每个 worker 用独立 context · 只装自己负责的 schema

03WORKER ×N各自跑 SQL · 校验结果 · 输出结构化数据

04MANAGER收齐 N 份子结果 · 跨结果 JOIN / 计算 · 出图

05MANAGER写中文 insight + 异常提示

SETUP1 周　·　ROI本来 context 装不下的任务 · 现在能跑通 · 4h → 15min

Claude Code Snowflake / BigQuery DuckDB LangGraph Plotly

§ 06 · 选型决策树

单 Agent · Skill · Multi-agent — 什么时候选什么

选型不要看"看起来高不高级"——看你的任务有没有触发某个具体信号。下面 3 个判断题，按顺序问，停在第一个 YES。

LEVEL · 01 · SINGLE AGENT
你的任务能在 10 步内完成、且不会反复发生？

如果是：不要上 Skill，更不要上 Multi-agent。 你只需要一个 ChatGPT / Claude 窗口 + 一段 prompt。Skills 和 Multi-agent 都有维护成本——任务不重复就别立基础设施。

触发信号：每周 0-1 次的临时任务 · 单一职能 · 无并行需求
真实例子：写一封一次性邮件 / 调研一个临时问题 / 查一份资料
LEVEL · 02 · SINGLE AGENT + SKILLS
同一个 Agent 要做 5+ 种类型的活，或者某段工作流反复复用？

如果是：上 Skills，但还不需要 Multi-agent。 Skills 让一个 Agent 像一个团队那样干活——同一个 context，可调用模块化能力。维护成本中等：要写 SOP，但只有一个 agent 在跑。

触发信号：同一 agent 处理 5+ 类任务 · 某段工作流被多处复用 · 需要团队协作维护 prompt
真实例子：个人助理（邮件 + 日历 + Notion + 备忘） / 一体化客服（多类工单 + 知识库 + 升级）
LEVEL · 03 · MULTI-AGENT
任一信号触发：context 超载 / 需要独立审核者 / 需要真并行？

如果是：上 Multi-agent。但准备好为协议设计、调试链路、监控状态多花 5-10×的工作量。 Multi-agent 不是"更高级的版本"，是不得不分工时的选择。

触发信号：单 agent 跑过 50 步会漂移 · 必须独立眼挑刺 · 4+ 子任务可并行 · context 装不下完整 schema

SUB-CHOICE4 种模式怎么选

·MANAGER-WORKER任务能静态拆分 · 子任务互相独立

·PIPELINE任务是顺序转化 · 每步有专门技能

·ROUNDTABLE需要多个独立视角 · 怕思维定式

·ADVERSARIAL质量是死命题 · 错代价大 (代码 / 合同)

REMEMBER多数生产系统是 2-3 种模式的嵌套组合

§ 07 · 市场观察

关于 Multi-agent 和 Skills，市场上 5 句不太对的话

Ep 01 讲的是"AI 应用周边市场"——卖焦虑、卖确定性。这一节聚焦 Ep 02 的两个词：multi-agent 和 skills 各自被市场加工成了什么。看清楚之后，你能更快判断一个产品 / 文章 / 课程到底有没有真东西。

观察 · 01 · LANGGRAPH WRAPPER
"Multi-agent Platform / OS"

2024-2026 涌出大量"Multi-agent OS / 平台"创业项目。多数本质是 LangGraph + 一层 UI， agent 之间根本没有真正独立的 context。判断标准很简单：问他们"两个 agent 各自能看到什么 system prompt？"—— 答不出具体边界，就是个 wrapper。
观察 · 02 · MORE TOOLS > BETTER AGENT
"我们的 Agent 装了 100+ Skills"

"Skills 数量"被当成卖点，但 §02-02 的 Tool Overload 天花板对 skills 同样成立—— 装得越多，agent 选择哪个 skill 的判断越乱。生产实测：超过 15-20 个 skills 后，召回准确率断崖式下跌。装精的 10 个 > 装杂的 50 个。
观察 · 03 · ACADEMIC vs PRACTICAL
"Multi-agent 是通向 AGI 的路径"

这是学术界辩了 20 年的话题（agent-based modeling, swarm intelligence, multi-agent reinforcement learning…）， 跟你今天搭一个能跑通客服工单的系统没有关系。这种宏大叙事经常被用来给一个简单的 LangGraph demo 装门面——听到就先记住：再宏大也得能跑工单。
观察 · 04 · PROPRIETARY FRAMING
"Skill 是 Anthropic 的专有功能"

错。Skill 不是某个厂商的功能，是一种设计模式。它跟 OpenAI Custom GPT Actions、LangChain Tools、自己写的 modular prompt 文件、甚至 Unix 工具 + 一段 README 文档，本质都是同一回事——把可复用的能力打包成可被发现 + 可被调用的单元。谁封装得最干净是另一回事，但概念不归任何一家。
观察 · 05 · WRONG ORDER
"复杂任务必须用 Multi-agent"

通常说反了。复杂任务最该做的第一件事是SOP 化——把它拆成可重复的步骤、明确每步的输入输出。做完 SOP 之后，多数任务的"复杂度"会下降到能用单 agent + skills 解决；只有真正剩下的、需要并行 / 独立审核的部分才上 multi-agent。顺序搞反——直接堆 multi-agent——结果是用昂贵的协调成本掩盖你没想清楚的工作流。

§ 08 · 接下来 90 天

从单 Agent 走向 Multi-agent 的 12 周

这是 Ep 01 的 90 天路径的延伸版—— 假设你已经能用单 agent + 1 个 Project 解决日常任务（Ep 01 Week 9-12 走通的状态）。接下来 12 周，从「单 agent + 1 Skill」走到「3 agent 协作系统」。每周一个失败信号，亮了就回退。

WEEK 1 – 2 · 找候选
列出你工作流里 3 个最高频的子任务

不是找"想用 AI 替代的活"——是找"每周做 5+ 次、每次步骤几乎一样"的事。这些是 Skill 的天然候选。写下来：任务名 / 频率 / 输入 / 输出 / 当前耗时。 失败信号：列不出 3 个——说明你的工作流还没规律化，回 Ep 01。 怎么办：继续做一周纯人工，每做一件事记一笔。
WEEK 3 – 4 · 写第一个 Skill
挑最痛的那个候选 — 写成 SKILL.md 跑通

按 §03 那 4 要素（DESCRIPTION / CONTRACT / PROMPT / TOOLS）写一个独立文件。在 Claude Code 或自己的 agent 里挂上，连跑一周——每次需要这个任务时只调它，不手写 prompt。 失败信号：第 4 周末你还在频繁手动改 SKILL.md 里的 prompt。 怎么办：不是 Skill 不行——是你选的任务还不够 SOP。回去拆得更具体。
WEEK 5 – 8 · 装满一个 Agent
写 3-5 个 Skill，装到同一个 Agent

把 Week 1-2 列的另外 2-4 个任务也做成 Skill。现在你的 agent 应该能在一个 context 里处理 5 种不同类型的活—— 体验上，从"通用助理"升级成"有专业能力的同事"。 失败信号：agent 经常调错 Skill / 把两个 Skill 的逻辑混着用。 怎么办：说明你装太多了——压回 3 个最高频的，剩下的留到 Multi-agent 阶段。
WEEK 9 – 12 · 第一次分工
挑一个跑不通的复杂任务，设计 2-3 agent 协作

找一个 §02 天花板真撞到的任务——单 agent 跑过 50 步崩、或需要独立 critic、或需要并行处理。按 §04 4 种模式选一种，搭一个最小可用 multi-agent 系统。 不要做大、做完整——做能跑通最简单版本即可。 失败信号：到第 12 周还在调 prompt / 协议，跑不通 end-to-end。 怎么办：多数时候是你想搭的系统太复杂——拆到只剩两个 agent，看哪个真有必要独立。

12 周后你该能回答这个问题： "我现在每天工作的哪一段，是同一个 Agent 调一组 Skill 跑完的？哪一段是几个 Agent 协作跑完的？"

能具体指出这两段、有产出物、有日志——你就跨过了 Ep 01 → Ep 02 的边界。回答不出来——说明你还是在用"一个 ChatGPT 窗口"在做事，没"搭系统"。

Real Agent Use Cases

从单 Agent 到 Multi-agent，差的不是新概念，是你
选一个工作流坐下来真搭

这一课讲完，你能分清单 Agent / Skills / Multi-agent 各自该在哪用。但「分得清」≠「搭得出」。下一节课讲哪个题，取决于这一课的内容你有没有真正落到一个跑得动的工作流上。

← EP 01 · What is AI Agent　·　EP 02（你在这里）　·　EP 03 (coming)

一个 Agent， 干不完一件像样的事。

任务超过 50 步后，前面的指令被新内容稀释

同一个 Agent 装了 20+ 个工具，调用判断越来越乱

单线程任务一旦中间出错，后面全部基于错信息往下推

同时要它"做+检查+报告"，哪一样都做不好

一个 Skill 包含什么

Skill 适合什么场景

3 个能跑通的 Skill 例子

一个 Manager 拆任务，N 个 Worker 各自执行

Agent A → Agent B → Agent C，每步处理完丢给下一步

多个专家 Agent 并行看同一个问题，最后一个 Synthesizer 汇总

Drafter 写，Critic 挑刺，反复迭代到收敛

200 张工单 5 个人处理不完——分类用 manager，处理用 worker

200 个 prospect，4 段流水线干完 1 个 SDR 4 天的活

Drafter + 3 个 Critic 互喷，bug 量减半

4 个专家 agent 并行看同一家公司，最后 synthesizer 出威胁评级

Pipeline 串 4 站 + 中间嵌一段 Adversarial，质量比单 agent 高 + 量翻 5 倍

50 张表关联分析——一个 Agent 装不下，10 个 Worker 并行查

你的任务能在 10 步内完成、且不会反复发生？

同一个 Agent 要做 5+ 种类型的活，或者某段工作流反复复用？

任一信号触发：context 超载 / 需要独立审核者 / 需要真并行？

"Multi-agent Platform / OS"

"我们的 Agent 装了 100+ Skills"

"Multi-agent 是通向 AGI 的路径"

"Skill 是 Anthropic 的专有功能"

"复杂任务必须用 Multi-agent"

列出你工作流里 3 个最高频的子任务

挑最痛的那个候选 — 写成 SKILL.md 跑通

写 3-5 个 Skill，装到同一个 Agent

挑一个跑不通的复杂任务，设计 2-3 agent 协作

一个 Agent，
干不完一件像样的事。