Agent Skills科普：从「会聊天」到「会做事」的能力栈——用Metadata、Instruction、Resources三层架构把智能体拆开讲清楚-AITOP100,AI资讯

过去两年，大模型最让人惊艳的能力是“会写、会答、会总结”。但当你真的把它放进工作流：写稿要查证、做分析要跑数、做运营要发邮件、做客服要查订单——你会很快发现，“能生成”不等于“能完成任务”。

真正能把 AI 变成生产力的关键，不是再换一个更大的模型，而是把它变成一个可管理、可复用、可上线的系统：Agent（智能体）。而让 Agent 稳定做事的核心构件，就是 Agent Skills（智能体技能）。

这篇文章从“科普 + 方法论 + 实战”的角度，提出一套对新手友好、对高手也可直接落地的拆解方式：用 Metadata（元信息）—Instruction（指令）—Resources（资源） 的三层架构，把 Agent Skills 的概念、技术原理、工程要点和多场景实战一次讲透，并给出可直接复用的写法模板。

傅盛讲Agent Skills 视频源文件地址： https://x.com/FuSheng_0306/status/2011400652992209359

1. Agent Skills 到底是什么：不是“装工具”，是“封装任务能力”

很多人第一次听到 Skills，会把它理解成“给模型多接几个工具（API）”。这只说对了一半。

更准确地说：

Agent Skills 是“可复用的任务完成能力单元”：它把目标、流程、工具、知识、约束与验收标准封装在一起，让智能体能稳定交付。

如果把大模型比作“脑”，工具比作“手”，那么 Skills 更像“肌肉记忆 + 操作规程 + 安全带”：

它知道什么时候该用手、用哪只手、用完怎么检查；
它知道哪些动作需要确认、哪些动作不能做；
它能在失败时重试、换路、降级输出；
它还能被复用、被版本化、被监控、被评测。

这也是为什么今天各家平台都在强调 tool/function calling（工具/函数调用）：模型可以在生成过程中发起“调用请求”，由外部系统执行并把结果回填，模型再基于结果完成最终回答与行动闭环 OpenAI。

同样，Gemini 的文档把概念拆得非常清楚：Tools 是具体能力（搜索、代码执行、地图等），Agents 是能计划、执行、多步综合的系统；工具扩展能力，智能体组织能力 Google Gemini。

2. 三层架构总览：Metadata、Instruction、Resources 各管什么？

你可以把一个 Skill 想象成“一个小产品”。三层架构就是它的产品结构：

（一）Metadata：你是谁、能做什么、边界在哪里

Metadata 是技能的“说明书 + 合同 + 配置入口”。

它回答：

这个 Skill 叫什么？解决什么问题？适合谁用？
输入/输出是什么结构？成功标准是什么？
有哪些风险与边界？哪些动作必须人工确认？
成本预算、权限等级、版本信息是什么？

没有 Metadata 的 Agent，通常会变成“写得很好，但不可控”：要么乱调用工具，要么输出风格漂移，要么越权执行。

（二）Instruction：你怎么做、按什么流程做、怎么自检

Instruction 是技能的“操作系统”。

它不是一句“请你专业一点”，而是可执行的 SOP：

先澄清哪些信息，缺什么就问什么；
什么情况下必须检索，什么情况下不该检索；
工具如何选择、调用顺序是什么、失败怎么兜底；
结果如何验证、冲突证据如何处理；
输出格式、引用规范、口吻要求；
最终如何自检与验收。

在研究与工程实践里，ReAct 这类范式之所以重要，是因为它强调“推理与行动交织”：边想边查边改，用外部信息抑制幻觉与错误传播 arXiv。

（三）Resources：你能用到哪些外部能力与信息

Resources 是技能的“手脚 + 资料库 + 观测系统”。

包括：

工具/函数（API、数据库、企业系统、自动化脚本）
检索与知识（RAG：向量库、文档库、网页、内网）
执行环境（代码执行、浏览器自动化、工作流引擎）
可观测与评估（Tracing、日志、评测集、告警）

当 Agent 上线后，你要能回答：它为什么慢？为什么错？错在检索还是工具？有没有越权？这就需要观测体系。OpenTelemetry 强调：对于非确定性的 AI agent，遥测数据不仅用于监控，更是持续改进的反馈回路 OpenTelemetry。

3. 技术原理：从“对话模型”到“行动智能体”的底层机制

把 Agent Skills 做成工程可用的形态，底层通常由三种机制组成：

3.1 工具/函数调用：让模型“能做事”

典型链路是：

你把工具定义（函数 schema）与用户问题一起发给模型
模型决定要调用哪个工具，并给出结构化参数
你的系统执行工具，把结果回填给模型
模型基于结果生成最终答复（或继续调用更多工具）
这套流程是主流平台共同的基础能力 OpenAI。

这里的关键工程点是“可控”：函数名、参数、严格模式、并行调用、以及“何时用/何时不用”的规则要写清楚，否则模型会“看起来很努力，但越努力越容易出错”。

3.2 RAG（检索增强生成）：让模型“能查证”

当你要求它“不要编造”，但不给它可靠来源，它只能靠猜。RAG 的意义是把“事实”从模型参数中解耦出来，交给可更新的数据源：文档库、网页、产品手册、内部知识等。

更进一步的 Agentic RAG 是：智能体能判断何时检索、检索什么、如何验证检索结果、以及检索不到时怎么办。

3.3 观测与评估：让系统“能迭代”

当 Agent 进入生产环境，最重要的能力不是“偶尔答对”，而是“持续变好”。因此你需要：

追踪每一步工具调用与检索证据链
统计成功率、耗时、成本、失败原因
用评测集做回归测试，防止“改好一个 bug，引入三个新 bug”

LlamaIndex 在其可观测性指南里明确：构建 RAG 和 Agent 的关键要求之一就是“可观察、可调试、可评估”，并支持把 traces 导出到 OpenTelemetry 等系统 LlamaIndex。

4. 多场景实战：同一套三层架构，如何适配不同任务？

下面给出 6 个媒体与企业都高频的场景，告诉你“每层该写什么才算到位”。

场景 A：科技媒体写作（选题→查证→成稿）

Metadata：媒体定位、读者层级、禁忌（不得编造引用/数据）
Instruction：先列提纲与信息缺口→逐条补证据→带来源写作→自检
Resources：网页检索/指定 URL 阅读、历史稿件库、术语表

你会发现：写稿 Skill 的核心不是文采，而是证据链。

场景 B：事实核查（Fact-check）

Instruction 必须定义：冲突证据的处理策略（并列呈现、给出差异原因、标注不确定性）
Resources：多源检索、权威数据库、公开财报/论文/官方公告链接池

场景 C：企业知识库问答（RAG）

Metadata：知识范围、保密等级、能否外发
Instruction：必须先检索再回答；检索不到就追问或明确“资料不足”
Resources：向量库、文档权限系统、审计日志

场景 D：运营自动化（查数据→生成内容→执行动作）

Metadata：哪些动作必须人工确认（群发、删改、付款）
Instruction：先预演输出，再执行工具调用，最后复核结果
Resources：CRM/工单/邮件系统 API + tracing

场景 E：数据分析报告（跑数→图表→结论）

Instruction：计算必须用代码/工具，不允许口算“猜结果”
Resources：数据源、代码执行、图表模板

场景 F：多智能体协作（Researcher/Writer/Editor/Checker）

Metadata：角色分工与交付物契约
Instruction：主控负责拆解与验收，子 Agent 负责专项并提交可核验材料
Resources：共享记忆、任务队列、统一观测与评测

5. 直接可用：一份“Agent Skills 三层架构”通用写法（可复制粘贴）

下面这部分就是你要的“直接可用文字”。你可以把它当作媒体稿件中“方法论段落”，也可以当作团队内部技能规范模板。

5.1 通用定义（可直接放稿件正文）

Agent Skills 可以用三层架构来理解：Metadata、Instruction、Resources。

其中，Metadata 定义技能的身份、边界与治理规则；Instruction 定义技能的执行流程与质量标准；Resources 定义技能可调用的工具、可检索的知识与可观测的反馈系统。三层分离的意义在于：把“模型会不会”变成“系统能不能稳定交付”，把“靠提示词玄学”变成“可复用、可迭代的工程能力” OpenAI OpenTelemetry。