工程开发
context-optimization
通过上下文窗口管理(包括 KV-cache 优化、观察遮蔽、上下文压缩与分割)来优化 AI 代理性能并降低运行成本。
简介
此技能提供了一套系统化的上下文工程框架,专注于扩展有限 LLM 上下文窗口的有效容量。它专为构建生产级代理系统的开发者与 AI 工程师设计,以应对上下文限制、运行成本上升以及长对话或分析流程中的延迟问题。将上下文窗口视为有限资源,此技能强制执行数据管理的纪律,以维持模型的性能与一致性。
-
KV-cache 优化:通过提示词排序与稳定化前缀,最大化推理引擎的缓存命中率,进而显著降低延迟与计算成本。
-
观察遮蔽 (Observation masking):在工具输出完成任务后,将冗长的结果替换为简洁的参考信息,在回收大量 Token 预算的同时保留关键数据。
-
上下文压缩 (Context compaction):当使用率达到门槛时,对对话历史与工具输出进行智能总结,并透过系统提示词锚定模型行为,确保关键信息不受损失。
-
上下文分割 (Context partitioning):将复杂任务拆解为多个独立的子代理上下文,以避免窗口饱和并提升推理质量。
-
当面临上下文相关限制(如 Token 上限、长轨迹推理准确度下降)或需要大规模降低成本时,请启动此技能。
-
预期输入包括原始提示词数据、对话轨迹与工具使用记录;输出为维持任务关键状态并经过优化的数据。
-
实务限制:压缩属于有损操作,应用策略前后务必进行衡量。优先执行 KV-cache 稳定化,因为此操作零风险;而过度激进的压缩则需谨慎处理,以避免遗失对上下文敏感的信息。本技能与平台无关,适用于 Claude Code 或一般 LLM SDK 环境。
仓库统计
- Star 数
- 15,322
- Fork 数
- 1,202
- Open Issue 数
- 25
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月28日 11:00