过去两年,大模型最让人惊艳的能力是“会写、会答、会总结”。但当你真的把它放进工作流:写稿要查证、做分析要跑数、做运营要发邮件、做客服要查订单——你会很快发现,“能生成”不等于“能完成任务”。
真正能把 AI 变成生产力的关键,不是再换一个更大的模型,而是把它变成一个可管理、可复用、可上线的系统:Agent(智能体)。而让 Agent 稳定做事的核心构件,就是 Agent Skills(智能体技能)。
这篇文章从“科普 + 方法论 + 实战”的角度,提出一套对新手友好、对高手也可直接落地的拆解方式:用 Metadata(元信息)—Instruction(指令)—Resources(资源) 的三层架构,把 Agent Skills 的概念、技术原理、工程要点和多场景实战一次讲透,并给出可直接复用的写法模板。
傅盛讲Agent Skills 视频源文件地址: https://x.com/FuSheng_0306/status/2011400652992209359
1. Agent Skills 到底是什么:不是“装工具”,是“封装任务能力”
很多人第一次听到 Skills,会把它理解成“给模型多接几个工具(API)”。这只说对了一半。
更准确地说:
Agent Skills 是“可复用的任务完成能力单元”:它把目标、流程、工具、知识、约束与验收标准封装在一起,让智能体能稳定交付。
如果把大模型比作“脑”,工具比作“手”,那么 Skills 更像“肌肉记忆 + 操作规程 + 安全带”:
- 它知道什么时候该用手、用哪只手、用完怎么检查;
- 它知道哪些动作需要确认、哪些动作不能做;
- 它能在失败时重试、换路、降级输出;
- 它还能被复用、被版本化、被监控、被评测。
这也是为什么今天各家平台都在强调 tool/function calling(工具/函数调用):模型可以在生成过程中发起“调用请求”,由外部系统执行并把结果回填,模型再基于结果完成最终回答与行动闭环 OpenAI。
同样,Gemini 的文档把概念拆得非常清楚:Tools 是具体能力(搜索、代码执行、地图等),Agents 是能计划、执行、多步综合的系统;工具扩展能力,智能体组织能力 Google Gemini。
2. 三层架构总览:Metadata、Instruction、Resources 各管什么?
你可以把一个 Skill 想象成“一个小产品”。三层架构就是它的产品结构:
(一)Metadata:你是谁、能做什么、边界在哪里
Metadata 是技能的“说明书 + 合同 + 配置入口”。
它回答:
- 这个 Skill 叫什么?解决什么问题?适合谁用?
- 输入/输出是什么结构?成功标准是什么?
- 有哪些风险与边界?哪些动作必须人工确认?
- 成本预算、权限等级、版本信息是什么?
没有 Metadata 的 Agent,通常会变成“写得很好,但不可控”:要么乱调用工具,要么输出风格漂移,要么越权执行。
(二)Instruction:你怎么做、按什么流程做、怎么自检
Instruction 是技能的“操作系统”。
它不是一句“请你专业一点”,而是可执行的 SOP:
- 先澄清哪些信息,缺什么就问什么;
- 什么情况下必须检索,什么情况下不该检索;
- 工具如何选择、调用顺序是什么、失败怎么兜底;
- 结果如何验证、冲突证据如何处理;
- 输出格式、引用规范、口吻要求;
- 最终如何自检与验收。
在研究与工程实践里,ReAct 这类范式之所以重要,是因为它强调“推理与行动交织”:边想边查边改,用外部信息抑制幻觉与错误传播 arXiv。
(三)Resources:你能用到哪些外部能力与信息
Resources 是技能的“手脚 + 资料库 + 观测系统”。
包括:
- 工具/函数(API、数据库、企业系统、自动化脚本)
- 检索与知识(RAG:向量库、文档库、网页、内网)
- 执行环境(代码执行、浏览器自动化、工作流引擎)
- 可观测与评估(Tracing、日志、评测集、告警)
当 Agent 上线后,你要能回答:它为什么慢?为什么错?错在检索还是工具?有没有越权?这就需要观测体系。OpenTelemetry 强调:对于非确定性的 AI agent,遥测数据不仅用于监控,更是持续改进的反馈回路 OpenTelemetry。
3. 技术原理:从“对话模型”到“行动智能体”的底层机制
把 Agent Skills 做成工程可用的形态,底层通常由三种机制组成:
3.1 工具/函数调用:让模型“能做事”
典型链路是:
- 你把工具定义(函数 schema)与用户问题一起发给模型
- 模型决定要调用哪个工具,并给出结构化参数
- 你的系统执行工具,把结果回填给模型
- 模型基于结果生成最终答复(或继续调用更多工具)
这套流程是主流平台共同的基础能力 OpenAI。
这里的关键工程点是“可控”:函数名、参数、严格模式、并行调用、以及“何时用/何时不用”的规则要写清楚,否则模型会“看起来很努力,但越努力越容易出错”。
3.2 RAG(检索增强生成):让模型“能查证”
当你要求它“不要编造”,但不给它可靠来源,它只能靠猜。RAG 的意义是把“事实”从模型参数中解耦出来,交给可更新的数据源:文档库、网页、产品手册、内部知识等。
更进一步的 Agentic RAG 是:智能体能判断何时检索、检索什么、如何验证检索结果、以及检索不到时怎么办。
3.3 观测与评估:让系统“能迭代”
当 Agent 进入生产环境,最重要的能力不是“偶尔答对”,而是“持续变好”。因此你需要:
- 追踪每一步工具调用与检索证据链
- 统计成功率、耗时、成本、失败原因
- 用评测集做回归测试,防止“改好一个 bug,引入三个新 bug”
LlamaIndex 在其可观测性指南里明确:构建 RAG 和 Agent 的关键要求之一就是“可观察、可调试、可评估”,并支持把 traces 导出到 OpenTelemetry 等系统 LlamaIndex。
4. 多场景实战:同一套三层架构,如何适配不同任务?
下面给出 6 个媒体与企业都高频的场景,告诉你“每层该写什么才算到位”。
场景 A:科技媒体写作(选题→查证→成稿)
- Metadata:媒体定位、读者层级、禁忌(不得编造引用/数据)
- Instruction:先列提纲与信息缺口→逐条补证据→带来源写作→自检
- Resources:网页检索/指定 URL 阅读、历史稿件库、术语表
你会发现:写稿 Skill 的核心不是文采,而是证据链。
场景 B:事实核查(Fact-check)
- Instruction 必须定义:冲突证据的处理策略(并列呈现、给出差异原因、标注不确定性)
- Resources:多源检索、权威数据库、公开财报/论文/官方公告链接池
场景 C:企业知识库问答(RAG)
- Metadata:知识范围、保密等级、能否外发
- Instruction:必须先检索再回答;检索不到就追问或明确“资料不足”
- Resources:向量库、文档权限系统、审计日志
场景 D:运营自动化(查数据→生成内容→执行动作)
- Metadata:哪些动作必须人工确认(群发、删改、付款)
- Instruction:先预演输出,再执行工具调用,最后复核结果
- Resources:CRM/工单/邮件系统 API + tracing
场景 E:数据分析报告(跑数→图表→结论)
- Instruction:计算必须用代码/工具,不允许口算“猜结果”
- Resources:数据源、代码执行、图表模板
场景 F:多智能体协作(Researcher/Writer/Editor/Checker)
- Metadata:角色分工与交付物契约
- Instruction:主控负责拆解与验收,子 Agent 负责专项并提交可核验材料
- Resources:共享记忆、任务队列、统一观测与评测
5. 直接可用:一份“Agent Skills 三层架构”通用写法(可复制粘贴)
下面这部分就是你要的“直接可用文字”。你可以把它当作媒体稿件中“方法论段落”,也可以当作团队内部技能规范模板。
5.1 通用定义(可直接放稿件正文)
Agent Skills 可以用三层架构来理解:Metadata、Instruction、Resources。
其中,Metadata 定义技能的身份、边界与治理规则;Instruction 定义技能的执行流程与质量标准;Resources 定义技能可调用的工具、可检索的知识与可观测的反馈系统。三层分离的意义在于:把“模型会不会”变成“系统能不能稳定交付”,把“靠提示词玄学”变成“可复用、可迭代的工程能力” OpenAI OpenTelemetry。
5.2 直接可落地模板:科技媒体写作 Skill(可直接当你稿件附录/工具箱)
Skill 名称:[Agent Skills 科技稿件生成]
Metadata(元信息)
- Skill 目标:将用户主题或素材整理为可发布的科技类新闻/科普稿件
- 读者层级:兼顾小白与进阶读者(术语首次出现必须解释;关键结论必须有证据)
- 输出结构:标题|导语|分节正文|要点框|参考来源列表
- 事实与合规约束:不得编造人物、机构、数据与引用;无法核验的信息必须用“不确定表述”并说明缺口
- 成功标准:结构清晰、论点与证据一致、关键事实可追溯来源链接、读者可读性强
- 风险分级:涉及金融/医疗/法律的结论必须添加“非建议”提示,并建议读者参考官方文件
Instruction(指令/SOP)
- 澄清需求:确认主题、角度(科普/产业/评论)、篇幅、读者层级、是否有指定来源或禁用来源
- 生成提纲:给出 5–8 个小标题与每节要回答的关键问题;列出信息缺口清单
- 补齐证据:对每个关键事实给出可点击来源;如出现多来源冲突,必须并列呈现并解释差异
- 写作输出:导语先给结论与关键事实;正文遵循“概念→原理→应用→争议/限制→趋势”的叙事
- 自检验收:逐段检查是否存在无来源断言;检查是否偷换概念;检查术语是否解释;检查结论是否超出证据
- 交付规范:每段事实性内容段尾附来源链接;文末列 Sources(只列实际引用过的链接)
Resources(资源)
- 检索资源:网页搜索/指定 URL 阅读(用于事实核验与补充背景)
- 知识资源:用户提供材料、历史报道、公开论文/公告(如可用)
- 工具资源:结构化提纲生成、数据计算(需要时优先用工具而非猜测)
- 观测资源:记录引用命中率、事实核验失败原因、改稿反馈,作为下一版 Instruction 优化依据 LlamaIndex。
6. 收束:一条最关键的判断标准
判断一个 Agent Skills 是否“工程可用”,你可以只问一句:
它能否在“信息不全、来源冲突、工具失败、成本受限”的情况下,仍然给出稳定、可解释、可验收的交付?
如果答案是“可以”,那它就是技能;如果答案是“看运气”,那它只是一次对话。
参考来源
- OpenAI Function/Tool Calling:工具调用流程、函数定义与最佳实践 OpenAI
- ReAct:推理与行动交织,降低幻觉、提升可解释性 arXiv
- Gemini Tools & Agents:工具与智能体的区别、内置/自定义工具执行流 Google Gemini
- LlamaIndex Observability:RAG/Agents 的可观测性与集成方向 LlamaIndex
- OpenTelemetry AI Agent Observability:面向 agent 的观测标准化趋势 OpenTelemetry








