在讨论 Skill 节省 Token 之前,需要先讲一个核心理念:
Skill 并不是把所有规则和提示一次性塞进上下文,而是按需、分层、逐步加载内容的机制。
这一点相信对Skill的用法有点了解的同学,都能够get到。
而正是这个“只在需要时再加载”的机制,让 Skill 在大模型运行时极大减少无效上下文消耗,比直接用大量 prompt 简单重复指令要省得多。下面详细展开。
1)从 Token 泄漏问题说起
传统 prompt-engineering 大多是:
- • 开场把所有规则硬塞进去(system prompt)
- • 所有规则都进入上下文,每条 token 都消耗成本
这种方法在简单场景可以,但一旦规则数量增长,上下文会膨胀得很快,直接影响成本和效果。
Skill 做的不是“把所有东西往 context 里堆”。
2)Skill 的三层按需加载架构(核心节省来源)
Skill 的节省核心来自于 渐进式披露(Progressive Disclosure)架构。这个机制把 Skill 内容拆成三层,按需要逐步加载,而不是一次性全部加载。(Claude Docs)
第一层:Metadata(元数据)—— 全部加载但非常轻量
这是每个 Skill 的最基础信息,通常只有:
这一层在 Agent 启动时统一加载,但每个 Skill 消耗的 Token 非常少(典型是几十到 100 tokens 量级)。(Claude Docs)
例子:
---
name: pdf-processing
description: Extract text and tables from PDF files
---
关键意义:
Token 消耗约为:
n 个 Skill × ~100 tokens
即使有上百个 Skill,也远低于一次性加载所有 Skill 说明。
第二层:Instructions(指令主体)—— 只在触发时加载
当模型判断当前任务可能需要某个 Skill 时,它才会去文件系统里读取该 Skill 的具体内容(SKILL.md 正文部分)并把它载入上下文。(Claude Docs)
这一层通常包含:
这部分内容比 Metadata 大得多,但 只会加载在当前任务相关的 Skill 上。
举例对比:
如果你有 100 个 Skill:
- • 触发时:平均可能加载 2–4 个 Skill 的正文
这比一次性把所有 Skill 都塞进上下文节省太多了。(skills.deeptoai.com)
第三层:Resources(资源层)—— 极具选择性加载
这一层是 Skill 中的可选部分,它可以包含:
这些资源 仅在模型真正需要它们时才从文件系统读入,并且通常是通过执行命令(例如 bash 读文件、执行脚本)而不是直接把全内容放进上下文。(Claude Docs)
为什么这很省 Token?
因为很多时候模型只需要:
而这些不需要把整个资源内容都加载到上下文,因此大幅减少了不必要的 Token 消耗。
3)对比普通 Prompt 与 Skill 的 Token 使用结构
来一个通俗的对比:
传统 Prompt
system prompt (所有规则 + 步骤 + 示例)
user prompt
每次响应,都得把“全部规则”带进上下文。
Skill 方式
[第一层] Metadata(加载少量描述)
user prompt
如果匹配:加载第二层 Instructions
如果需要:再按需加载第三层资源
换句话说:
- • Skill:总是先判断是否需要,再决定加载哪部分内容
这个过程类似于程序里的“懒加载(lazy loading)”,只在需要时再取数据。
4)真实节省效果有多明显?
一些社区测算和示例给出了非常直观的对比:
- • 不用 Skill:如果加载 100 个完整说明(每个 5,000 tokens),总量可能达到 500,000 tokens 远超模型上下文限制。(skills.deeptoai.com)
- • Metadata 全部:100 × ~100 tokens ≈ 10,000 tokens
- • 触发 3–4 个 Skill 主体内容:≈ 15,000–20,000 tokens
- • 总量远低于 传统堆叠,节省率 90%+。(skills.deeptoai.com)
这说明,即使系统中有大量 Skill,可用的上下文仍然很轻量。
5)为什么这不是简单的“把 prompt 改成 Skill”
这是很多人误解的地方。
Skill 之所以能省 Token,并不是因为提示词本身写得短,而是它的分层逻辑使得:
这和单纯写一个短 prompt 是不同级别的优化。
总结
Skill 能显著节省 Token,是因为它:
- 1. 先用极轻量的 Metadata 进行意图匹配
- 2. 只在任务相关时再加载主体 Instructions
这种“按需加载、懒加载、分层披露”的机制,是 Skill 节省 token 的根本原因。