EPISODE 02 · MULTI-AGENT & SKILLS · 2026.05.17

一个 Agent
干不完一件像样的事

这不是 Agent 不够强——是单 Agent 这种结构有天花板。
Skills 和 Multi-agent 不是两种新技术,是分工这个老问题的两种解法。

AGENT 101 SERIES · EP 02 · 不画饼版
§ 01 · 三个定义

Agent / Skill / Multi-agent — 先把这三个词的边界画清楚

这一课所有讨论都建立在这三个词上。它们在市场上经常被混用、被替换、被打包成同一件事—— 但工程上有清晰的边界。 先把定义说清楚,下面的讨论才有意义。

01Agent
一个能"感知 → 规划 → 执行 → 反思"循环跑下去的 LLM 实例 —— 不是问一答一,是给目标让它自己干活。
由什么组成
  • LLM — 大脑,做推理和决策
  • Tools — 接外部能力的接口(API / 数据库 / 浏览器 / 文件系统…)
  • Memory — 短期 context + 长期记忆(向量库 / 文件)
  • Loop — 循环执行,直到任务完成 / 失败 / 触发停止条件
关键判定

能自主决定下一步 = agent

只回答一个问题、没有下一步动作 = chatbot(不是 agent,不在本课讨论范围)

易混淆

"AI 助手 / Copilot / 智能体" — 第 01 期讲过,多数是营销话术,不再讨论。

02Skill
Agent 内部可被调用的模块化能力 —— 把工作流某段固化成独立单元,需要时调,不需要时不污染主上下文。
由什么组成
  • 触发描述 — "什么场景下应该调用我"(让 agent 知道何时用)
  • 输入输出契约 — 需要什么输入、产出什么形态的输出
  • prompt — 这段任务的核心指令(可含 few-shot 示例)
  • 工具子集 — 这个 skill 允许调用的工具(不是 agent 的全部工具)
关键判定

仍然在同一个 agent 的 context 内运行 —— Skill 是 agent 的"内部模块",不是独立的 LLM 实例。

把 prompt 文件叫"Skill",跟把可复用函数叫"模块"是同一种命名 —— 重点不在词,在结构。

易混淆

"199 元 1000 个 prompt 合集" — 那不是 Skill,那是静态 prompt 库,没有触发逻辑、没有输入输出契约、不可程序化调用。

03Multi-agent
多个 agent 在独立 context 窗口中协作 —— 每个看世界的一部分,通过协议交换压缩过的状态。
由什么组成
  • N 个 agent — 各自独立的 LLM + Tools + Memory + Loop(即 N 个完整 agent)
  • 协议 — 怎么交换消息 / 状态(消息队列 / 共享文件 / 调用 API)
  • 协调机制 — 谁拆任务、谁汇总、谁停止整个流程
  • 失败处理 — 一个 agent 挂了 / 跑偏了,怎么办
关键判定

agent 之间 context 真的独立 = multi-agent

在一个 prompt 里写"你扮演 A,再扮演 B"≠ multi-agent,那是角色扮演,A 和 B 共享同一个 context。

易混淆

"我有 100 个 Skills 的 Agent" — 那是单 agent + 多 Skill,不是 multi-agent。这是市场上最常见的命名混淆。

§ 02 · 单 Agent 的天花板

同一个 Agent 干所有活,会以 4 种方式翻车

为什么需要 multi-agent 或 skills?因为单 Agent 在某种复杂度之后必然崩。 下面 4 个失败模式,每个都跟"agent 不够聪明"无关,是单一 context 这种结构本身的极限。

  • 天花板 · 01 · CONTEXT DRIFT

    任务超过 50 步后,前面的指令被新内容稀释

    你给 agent 一个 system prompt + 任务目标,让它跑 80 步。 到第 50 步时,agent 实际上已经看不太到原始 system prompt 了——它在被自己最近的输出 + tool 调用结果淹没。 观察症状:开头执行得很好,后面突然开始走样、忘记规则、答非所问。 模型再强也救不了——这是 attention 机制 + 上下文长度的物理限制。

  • 天花板 · 02 · TOOL OVERLOAD

    同一个 Agent 装了 20+ 个工具,调用判断越来越乱

    随着你给 agent 加越来越多的 tool(Gmail、Calendar、Notion、SQL、Web search、自定义 API...), 每次决策时它需要在 N 个 tool 之间选一个——选错就走偏。 实测:tool 数量超过 15 个后,agent 的 tool selection 准确率开始线性下降;超过 30 个,几乎不可用。 装得越多越无能——这是 Function Calling 的固有问题,不是 prompt 调教能解的。

  • 天花板 · 03 · ERROR COMPOUNDING

    单线程任务一旦中间出错,后面全部基于错信息往下推

    agent 在第 12 步把客户名字读错了,从第 13 步开始的所有动作(查记录、写回复、发邮件)全是错的, 但 agent 自己看不出来——它没有第二双眼睛检查它的中间结果。 到第 30 步你发现不对,回去查日志,发现问题源头是第 12 步——但这一切已经发生在生产环境。 这是单 agent 模式最常见的事故来源。

  • 天花板 · 04 · ROLE COLLAPSE

    同时要它"做+检查+报告",哪一样都做不好

    你写了一段巨长的 prompt:先研究市场、再起草文案、再批判性 review、最后输出 markdown 报告。 agent 在每个角色里都浅尝辄止——因为它没法在同一次推理里真正切换思维模式。 尤其是 "Drafter + Critic" 不分开,几乎一定会自圆其说:写文案的它和批评文案的它本就是同一个推理流。

§ 03 · 解法 A · Skills

Skills——分工的"轻量解"

很多人以为 Skill 是给 Agent 加新能力的方式。 更准确的说法是:Skill 是给一个 Agent 内部做分工——把工作流的某一段抽成可调用的独立单元,让 Agent 在该用的时候调,不需要的时候不污染主上下文。

一个 Skill 包含什么

标准的 Skill 文件(比如 Claude Skills 的 SKILL.md)四要素:

SKILL.mdemail-triage / 一个最小可用结构
01DESCRIPTION什么场景下调用我(agent 决策依据)
02CONTRACT输入是什么 / 输出是什么 / 错误怎么报
03PROMPT这段任务的核心指令(可含 few-shot 示例)
04TOOLS这个 skill 允许用的工具子集(不是 agent 全部工具)
CORE INSIGHTSkill = 工作流模块化 · 跟"功能扩展"无关

Skill 适合什么场景

  • 一个 Agent 要做多种类型的活:与其在一个巨长 prompt 里塞 10 种 if-else,不如每种做一个 Skill,agent 自己判断调哪个
  • 某段工作流被多处复用:邮件分类、CSV 探索这种通用动作,写成 Skill 后多个高层 agent 都能调
  • 需要版本化 / 可审计:Skill 是文件,git 管理;prompt 改了能 diff,错了能 revert
  • 团队多人协作维护同一个 agent:每个人改自己负责的 Skill 文件,不会互相覆盖一个巨型 system prompt

3 个能跑通的 Skill 例子

SKILL 01email-triage
·when用户问"今天的邮件" / "邮箱状态" / 提到 Gmail
·does读 Gmail → 5 类分类 → 起草回复 → 优先级排序
·toolsGmail Connector · 不需要其他
·output结构化 to-do JSON + 草稿列表
SKILL 02csv-explore
·when用户上传 CSV / 提到"看一下数据" / "做个分析"
·does读取 → schema 推断 → 跑 pandas → 出图 + 写 insight
·toolsCode Interpreter · matplotlib
·output3 张关键图 + 3 句话洞察
SKILL 03meeting-summary
·when用户粘录音转录 / 提到"刚开完会" / Granola 输出
·does提取决策 + 行动项 + 负责人 + DDL + 起草跟进邮件
·tools无外部 tool(纯 prompt skill)
·outputMarkdown 纪要 + 邮件草稿
§ 04 · 解法 B · Multi-agent

Multi-agent——分工的"重型解"

当 Skills 不够用——任务太大、单 context 装不下、或者必须有独立审核者—— 就要上 Multi-agent。这里的"多"不是个数,是独立 context:每个 agent 看到的世界不一样,互相之间通过协议交换状态。

判断"是不是真 multi-agent",看一个标准:两个 agent 各自的 context 窗口是不是真的独立。 如果只是同一个 system prompt 里 "you are agent A...you are agent B",那只是个角色扮演——不是 multi-agent。

真正的 multi-agent 有 4 种典型协作模式。它们解决的问题不同,复杂度不同。多数生产系统是这 4 种的组合。

  • 模式 · 01 · MANAGER–WORKER

    一个 Manager 拆任务,N 个 Worker 各自执行

    最常见、最容易理解。Manager agent 收到一个大任务,把它拆成 N 个子任务, 分发给专门的 Worker agents,每个 worker 用独立 context 跑自己那一段, 完成后汇报给 manager,manager 汇总并出最终结果。

    USE写一份 50 页调研报告 · Manager–Worker 实现
    ·MANAGER拆成 8 个章节 → 分配给 8 个 Researcher
    ·WORKER ×8每个独立查资料、写自己那章 · 互不干扰
    ·MANAGER收齐 8 份 → 统一风格 → 写引言 + 结论
    WHEN TO USE任务能被静态拆分 · 子任务之间没有强依赖
  • 模式 · 02 · PIPELINE

    Agent A → Agent B → Agent C,每步处理完丢给下一步

    流水线式。每个 agent 负责一个阶段的转化,前一个 agent 的输出 = 后一个 agent 的输入。 和 Manager–Worker 的区别:流水线是串行单线,没有中央调度者。

    USE内容生产 · Pipeline 实现
    01RESEARCHER挖 10 篇同行爆款 → 提炼共性
    02IDEATOR基于研究 → 出 7 个选题 + 大纲
    03WRITER写完整草稿
    04EDITOR校稿、改人设语料
    05PUBLISHER排版 + 多平台适配 + 排期
    WHEN TO USE任务是一条线性产业链 · 每段都有专门技能要求
  • 模式 · 03 · SPECIALIST ROUNDTABLE

    多个专家 Agent 并行看同一个问题,最后一个 Synthesizer 汇总

    "三家会诊"模式。同一个输入同时送给多个专家 agent, 每个 agent 用自己的专业 lens 看,给出独立判断;最后一个 synthesizer 把多视角合并。 重点是并行——专家之间互不沟通,避免彼此污染。

    USE股票决策 · Roundtable 实现
    ·QUANT看技术面 (双均线、RSI、量价) · 独立打分
    ·FUNDAMENTAL看财报、行业、估值 · 独立打分
    ·SENTIMENT看新闻、社媒、机构动作 · 独立打分
    ·RISK看仓位、波动、关联性 · 独立打分
    ·SYNTHESIZER汇总 4 个独立结论 → 出决策建议
    WHEN TO USE需要多个独立视角 · 怕"单一思维定式"
  • 模式 · 04 · ADVERSARIAL

    Drafter 写,Critic 挑刺,反复迭代到收敛

    对抗式。一个 agent 负责产出(Drafter),另一个 agent 天职就是找问题(Critic)。 两者来回多轮,直到 Critic 没意见或迭代次数到上限。 解决的核心问题:单 agent "自己审自己" 几乎一定自圆其说。

    USE代码 Review · Adversarial 实现
    01DRAFTER读 issue → 写实现 + 测试 → 提交 v1
    02CRITIC挑刺 (边界、安全、性能、可读性) → 列改进项
    03DRAFTER基于反馈改 → 提交 v2
    04CRITIC再 review → 直到通过或达 3 轮
    WHEN TO USE产出质量是死命题 · 错了代价大 (代码 / 合同 / 法律意见)
§ 05 · 6 个真实工作流

每个工作流都是 §03/§04 讲过的一种结构

下面 6 个系统,覆盖 4 种 multi-agent 模式 + Skills 组合。 挑一个跟你工作最近的——复制结构,换里面的 prompt 和工具——多数情况能直接跑通。 每条都标了用的是哪种模式,方便你回头对照 §03/§04 看。

  • CASE · 01 · 客户支持 · MANAGER-WORKER 单工单 8min → 1min · 人手减半

    200 张工单 5 个人处理不完——分类用 manager,处理用 worker

    反共识:客服效率瓶颈不是手速,是分类。 一个 manager 用 30 秒读完工单 + 分类,胜过 5 个客服各自 10 分钟的"先看是什么"。 然后每类工单交给专门 worker,每个 worker 只见过自己类别的训练上下文,处理质量比 generalist 高。

    WORKFLOW客服工单自动分流(Manager-Worker · 含 Skill)
    01INTAKEZendesk webhook · 新工单触发
    02MANAGER读工单 · 5 类分类(退款 / 技术 / 投诉 / 咨询 / 升级)
    03WORKER A退款 skill · 查订单 + 起草退款流程
    04WORKER B技术 skill · 查日志 + 起草修复步骤
    05WORKER C投诉 skill · 起草道歉 + 升级到人工
    06SUPERVISOR随机抽 5% 由人工 review · 反馈优化 manager
    SETUP2 周 · ROI8min → 1min · 客服团队 5 → 2 人
    Claude API Zendesk / Intercom n8n PostgreSQL
  • CASE · 02 · 销售触达 · PIPELINE 触达 3× · 回复率 +40%

    200 个 prospect,4 段流水线干完 1 个 SDR 4 天的活

    反共识:个性化邮件慢,不是写得慢——是"研究 + 写"在同一个人脑里来回切换慢。 把这两步分成两个 agent,再加 sender + tracker,整个 pipeline 跑起来一个人能干四个人的活。

    WORKFLOWCold outreach(Pipeline · 4 段串行)
    01RESEARCHER输入公司列表 · 拉财报 / 新闻 / 决策链 / 痛点信号
    02PERSONALIZER基于研究 · 写定制开场白 + 价值 hook
    03SENDER按最佳时间发送 · 跟踪打开 / 点击
    04TRACKER3 天未回 → 触发不同跟进策略(A/B)
    05FEEDBACK回复内容 → 回到 Personalizer 调写作风格
    SETUP1 周 · ROI每周触达 200 个 prospect · 回复率从 5% → 7%
    Apollo Clay Claude API Lemlist / Instantly HubSpot
  • CASE · 03 · 代码 Review · ADVERSARIAL 生产 bug -50% · PR 通过率 +30%

    Drafter + 3 个 Critic 互喷,bug 量减半

    反共识:让同一个 agent 写代码又 review 代码——它一定会觉得自己写得挺好。 必须用独立 context 的 critic agent,并且每个 critic 只负责一类风险。 安全 critic 不会被性能问题分心,性能 critic 不会忽略可读性——三个 critic 一起喷,才能让 drafter 真的改。

    WORKFLOWPR 多视角 Review(Adversarial · 1 写 3 critic)
    01DRAFTER读 issue + 影响面 · 写实现 + 单测 · 提交 v1
    02CRITIC.SECSQL 注入 / XSS / 权限边界 / secret 泄露
    03CRITIC.PERFN+1 / 死循环 / O(n²) / 缓存缺失
    04CRITIC.READ命名 / 抽象层级 / 注释 / dead code
    05DRAFTER合并 3 份反馈 → 出 v2 · 最多迭代 3 轮
    06HUMAN你只看终版 + 各 critic 的最终 verdict
    SETUP3 天 · ROIPR review 时间从 30min → 5min · 生产 bug -50%
    Claude Code GitHub Actions Aider Cursor
  • CASE · 04 · 竞品 / 市场情报 · ROUNDTABLE 单标的调研 1 周 → 1 小时

    4 个专家 agent 并行看同一家公司,最后 synthesizer 出威胁评级

    反共识:让一个 generalist agent 写一份"完整竞品报告"——它会写得四平八稳但没有 insight。 用 4 个 specialist agent 并行看同一家公司,每个只看自己的领域,最后 synthesizer 合并—— 得到的报告比一个 agent 的强 3-5 倍,因为视角真的独立了。

    WORKFLOW竞品多视角分析(Roundtable · 4 并行 + 1 合并)
    ·TECH技术栈 / 产品矩阵 / 工程能力 / 招聘信号
    ·FINANCIAL融资节奏 / 财报 / 估值 / 烧钱速度
    ·GTM渠道 / 定价 / 营销动作 / 客户基础
    ·PEOPLE高管变动 / 团队规模 / 关键人物 X 动态
    SYNTHESIZER汇总 4 个独立结论 · 出"威胁等级 + 你该做什么"
    SETUP3 天 · ROI竞品调研 1 周 → 1 小时 · 月度刷新 5 个标的
    Perplexity API Crunchbase LinkedIn API Claude Notion
  • CASE · 05 · 内容生产 · HYBRID(Pipeline + Adversarial) 单人单日 1 篇 → 5 篇

    Pipeline 串 4 站 + 中间嵌一段 Adversarial,质量比单 agent 高 + 量翻 5 倍

    反共识:99% 的"AI 写作工具"是单 agent 跑全流程——结果是 AI 味浓 + 视角单一。 真正能稳定产出的内容工厂是混合结构:Pipeline 提供流水线效率,关键的"写 + 改"那站用 Adversarial 提供质量

    WORKFLOW内容工厂(Pipeline 主线 + Adversarial 嵌套)
    01RESEARCHER扫同行 + Perplexity Deep Research · 出选题 + 资料
    02aWRITER基于资料写初稿 · 按人设语料调 voice
    02bEDITOR ⟷挑刺 (节奏 / 钩子 / 反共识强度 / AI 味)
    02cWRITER ⟷改 · 再 review · 最多 3 轮直到 EDITOR pass
    03ADAPTER一稿多平台 (Twitter / 小红书 / 公众号 / YouTube 描述)
    04SCHEDULERBuffer / Hypefury 排期 + 数据回流
    SETUP2 周(建人设语料) · ROI单人 1 篇/天 → 5 篇/天 · AI 味检测下降明显
    Perplexity Claude Buffer / Hypefury Notion CapCut
  • CASE · 06 · 跨库数据探索 · MANAGER-WORKER 多表关联分析 4h → 15min

    50 张表关联分析——一个 Agent 装不下,10 个 Worker 并行查

    反共识:数据分析师最头疼的不是写 SQL,是10 张表的 schema 加起来塞不进一个 agent 的 context。 把"理解 schema"这一步分到各 worker(每个 worker 只熟悉一张表),manager 只负责拆问题 + 拼答案—— 一个本来要"上下文塞不下"的任务,现在能 10 分钟交差。

    WORKFLOW跨库探索(Manager-Worker · 解决 Context 容量)
    01MANAGER读用户问题 · 拆成 N 个独立子查询(每个只查 1-2 张表)
    02WORKER ×N每个 worker 用独立 context · 只装自己负责的 schema
    03WORKER ×N各自跑 SQL · 校验结果 · 输出结构化数据
    04MANAGER收齐 N 份子结果 · 跨结果 JOIN / 计算 · 出图
    05MANAGER写中文 insight + 异常提示
    SETUP1 周 · ROI本来 context 装不下的任务 · 现在能跑通 · 4h → 15min
    Claude Code Snowflake / BigQuery DuckDB LangGraph Plotly
§ 06 · 选型决策树

单 Agent · Skill · Multi-agent — 什么时候选什么

选型不要看"看起来高不高级"——看你的任务有没有触发某个具体信号。 下面 3 个判断题,按顺序问,停在第一个 YES

  • LEVEL · 01 · SINGLE AGENT

    你的任务能在 10 步内完成、且不会反复发生?

    如果是:不要上 Skill,更不要上 Multi-agent。 你只需要一个 ChatGPT / Claude 窗口 + 一段 prompt。Skills 和 Multi-agent 都有维护成本——任务不重复就别立基础设施。

    触发信号:每周 0-1 次的临时任务 · 单一职能 · 无并行需求
    真实例子:写一封一次性邮件 / 调研一个临时问题 / 查一份资料
  • LEVEL · 02 · SINGLE AGENT + SKILLS

    同一个 Agent 要做 5+ 种类型的活,或者某段工作流反复复用?

    如果是:上 Skills,但还不需要 Multi-agent。 Skills 让一个 Agent 像一个团队那样干活——同一个 context,可调用模块化能力。维护成本中等:要写 SOP,但只有一个 agent 在跑。

    触发信号:同一 agent 处理 5+ 类任务 · 某段工作流被多处复用 · 需要团队协作维护 prompt
    真实例子:个人助理(邮件 + 日历 + Notion + 备忘) / 一体化客服(多类工单 + 知识库 + 升级)
  • LEVEL · 03 · MULTI-AGENT

    任一信号触发:context 超载 / 需要独立审核者 / 需要真并行?

    如果是:上 Multi-agent。但准备好为协议设计、调试链路、监控状态多花 5-10×的工作量。 Multi-agent 不是"更高级的版本",是不得不分工时的选择。

    触发信号:单 agent 跑过 50 步会漂移 · 必须独立眼挑刺 · 4+ 子任务可并行 · context 装不下完整 schema
    SUB-CHOICE4 种模式怎么选
    ·MANAGER-WORKER任务能静态拆分 · 子任务互相独立
    ·PIPELINE任务是顺序转化 · 每步有专门技能
    ·ROUNDTABLE需要多个独立视角 · 怕思维定式
    ·ADVERSARIAL质量是死命题 · 错代价大 (代码 / 合同)
    REMEMBER多数生产系统是 2-3 种模式的嵌套组合
§ 07 · 市场观察

关于 Multi-agent 和 Skills,市场上 5 句不太对的话

Ep 01 讲的是"AI 应用周边市场"——卖焦虑、卖确定性。 这一节聚焦 Ep 02 的两个词:multi-agent 和 skills 各自被市场加工成了什么。 看清楚之后,你能更快判断一个产品 / 文章 / 课程到底有没有真东西。

  • 观察 · 01 · LANGGRAPH WRAPPER

    "Multi-agent Platform / OS"

    2024-2026 涌出大量"Multi-agent OS / 平台"创业项目。多数本质是 LangGraph + 一层 UI, agent 之间根本没有真正独立的 context。判断标准很简单:问他们"两个 agent 各自能看到什么 system prompt?"—— 答不出具体边界,就是个 wrapper。

  • 观察 · 02 · MORE TOOLS > BETTER AGENT

    "我们的 Agent 装了 100+ Skills"

    "Skills 数量"被当成卖点,但 §02-02 的 Tool Overload 天花板对 skills 同样成立—— 装得越多,agent 选择哪个 skill 的判断越乱。 生产实测:超过 15-20 个 skills 后,召回准确率断崖式下跌。 装精的 10 个 > 装杂的 50 个。

  • 观察 · 03 · ACADEMIC vs PRACTICAL

    "Multi-agent 是通向 AGI 的路径"

    这是学术界辩了 20 年的话题(agent-based modeling, swarm intelligence, multi-agent reinforcement learning…), 跟你今天搭一个能跑通客服工单的系统没有关系。 这种宏大叙事经常被用来给一个简单的 LangGraph demo 装门面——听到就先记住:再宏大也得能跑工单。

  • 观察 · 04 · PROPRIETARY FRAMING

    "Skill 是 Anthropic 的专有功能"

    错。Skill 不是某个厂商的功能,是一种设计模式。 它跟 OpenAI Custom GPT Actions、LangChain Tools、自己写的 modular prompt 文件、 甚至 Unix 工具 + 一段 README 文档,本质都是同一回事——把可复用的能力打包成可被发现 + 可被调用的单元。 谁封装得最干净是另一回事,但概念不归任何一家。

  • 观察 · 05 · WRONG ORDER

    "复杂任务必须用 Multi-agent"

    通常说反了。复杂任务最该做的第一件事是SOP 化——把它拆成可重复的步骤、明确每步的输入输出。 做完 SOP 之后,多数任务的"复杂度"会下降到能用单 agent + skills 解决;只有真正剩下的、需要并行 / 独立审核的部分才上 multi-agent。 顺序搞反——直接堆 multi-agent——结果是用昂贵的协调成本掩盖你没想清楚的工作流。

§ 08 · 接下来 90 天

从单 Agent 走向 Multi-agent 的 12 周

这是 Ep 01 的 90 天路径的延伸版—— 假设你已经能用单 agent + 1 个 Project 解决日常任务(Ep 01 Week 9-12 走通的状态)。 接下来 12 周,从「单 agent + 1 Skill」走到「3 agent 协作系统」。 每周一个失败信号,亮了就回退。

  • WEEK 1 – 2 · 找候选

    列出你工作流里 3 个最高频的子任务

    不是找"想用 AI 替代的活"——是找"每周做 5+ 次、每次步骤几乎一样"的事。 这些是 Skill 的天然候选。写下来:任务名 / 频率 / 输入 / 输出 / 当前耗时。 失败信号:列不出 3 个——说明你的工作流还没规律化,回 Ep 01。 怎么办:继续做一周纯人工,每做一件事记一笔。

  • WEEK 3 – 4 · 写第一个 Skill

    挑最痛的那个候选 — 写成 SKILL.md 跑通

    按 §03 那 4 要素(DESCRIPTION / CONTRACT / PROMPT / TOOLS)写一个独立文件。 在 Claude Code 或自己的 agent 里挂上,连跑一周——每次需要这个任务时只调它,不手写 prompt失败信号:第 4 周末你还在频繁手动改 SKILL.md 里的 prompt。 怎么办:不是 Skill 不行——是你选的任务还不够 SOP。回去拆得更具体。

  • WEEK 5 – 8 · 装满一个 Agent

    写 3-5 个 Skill,装到同一个 Agent

    把 Week 1-2 列的另外 2-4 个任务也做成 Skill。 现在你的 agent 应该能在一个 context 里处理 5 种不同类型的活—— 体验上,从"通用助理"升级成"有专业能力的同事"失败信号:agent 经常调错 Skill / 把两个 Skill 的逻辑混着用。 怎么办:说明你装太多了——压回 3 个最高频的,剩下的留到 Multi-agent 阶段。

  • WEEK 9 – 12 · 第一次分工

    挑一个跑不通的复杂任务,设计 2-3 agent 协作

    找一个 §02 天花板真撞到的任务——单 agent 跑过 50 步崩、或需要独立 critic、或需要并行处理。 按 §04 4 种模式选一种,搭一个最小可用 multi-agent 系统。 不要做大、做完整——做能跑通最简单版本即可失败信号:到第 12 周还在调 prompt / 协议,跑不通 end-to-end。 怎么办:多数时候是你想搭的系统太复杂——拆到只剩两个 agent,看哪个真有必要独立。

12 周后你该能回答这个问题: "我现在每天工作的哪一段,是同一个 Agent 调一组 Skill 跑完的?哪一段是几个 Agent 协作跑完的?"

能具体指出这两段、有产出物、有日志——你就跨过了 Ep 01 → Ep 02 的边界。 回答不出来——说明你还是在用"一个 ChatGPT 窗口"在做事,没"搭系统"。

Real Agent Use Cases

从单 Agent 到 Multi-agent,差的不是新概念,是你
选一个工作流坐下来真搭

这一课讲完,你能分清单 Agent / Skills / Multi-agent 各自该在哪用。 但「分得清」≠「搭得出」。 下一节课讲哪个题,取决于这一课的内容你有没有真正落到一个跑得动的工作流上。

EP 01 · What is AI Agent · EP 02(你在这里) · EP 03 (coming)