工程开发
context-optimization avatar

context-optimization

通过上下文窗口管理(包括 KV-cache 优化、观察遮蔽、上下文压缩与分割)来优化 AI 代理性能并降低运行成本。

简介

此技能提供了一套系统化的上下文工程框架,专注于扩展有限 LLM 上下文窗口的有效容量。它专为构建生产级代理系统的开发者与 AI 工程师设计,以应对上下文限制、运行成本上升以及长对话或分析流程中的延迟问题。将上下文窗口视为有限资源,此技能强制执行数据管理的纪律,以维持模型的性能与一致性。

  • KV-cache 优化:通过提示词排序与稳定化前缀,最大化推理引擎的缓存命中率,进而显著降低延迟与计算成本。

  • 观察遮蔽 (Observation masking):在工具输出完成任务后,将冗长的结果替换为简洁的参考信息,在回收大量 Token 预算的同时保留关键数据。

  • 上下文压缩 (Context compaction):当使用率达到门槛时,对对话历史与工具输出进行智能总结,并透过系统提示词锚定模型行为,确保关键信息不受损失。

  • 上下文分割 (Context partitioning):将复杂任务拆解为多个独立的子代理上下文,以避免窗口饱和并提升推理质量。

  • 当面临上下文相关限制(如 Token 上限、长轨迹推理准确度下降)或需要大规模降低成本时,请启动此技能。

  • 预期输入包括原始提示词数据、对话轨迹与工具使用记录;输出为维持任务关键状态并经过优化的数据。

  • 实务限制:压缩属于有损操作,应用策略前后务必进行衡量。优先执行 KV-cache 稳定化,因为此操作零风险;而过度激进的压缩则需谨慎处理,以避免遗失对上下文敏感的信息。本技能与平台无关,适用于 Claude Code 或一般 LLM SDK 环境。

仓库统计

Star 数
15,322
Fork 数
1,202
Open Issue 数
25
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月28日 11:00
在 GitHub 查看