context-optimization

简介

此技能提供了一套系统化的上下文工程框架，专注于扩展有限 LLM 上下文窗口的有效容量。它专为构建生产级代理系统的开发者与 AI 工程师设计，以应对上下文限制、运行成本上升以及长对话或分析流程中的延迟问题。将上下文窗口视为有限资源，此技能强制执行数据管理的纪律，以维持模型的性能与一致性。

KV-cache 优化：通过提示词排序与稳定化前缀，最大化推理引擎的缓存命中率，进而显著降低延迟与计算成本。
观察遮蔽 (Observation masking)：在工具输出完成任务后，将冗长的结果替换为简洁的参考信息，在回收大量 Token 预算的同时保留关键数据。
上下文压缩 (Context compaction)：当使用率达到门槛时，对对话历史与工具输出进行智能总结，并透过系统提示词锚定模型行为，确保关键信息不受损失。
上下文分割 (Context partitioning)：将复杂任务拆解为多个独立的子代理上下文，以避免窗口饱和并提升推理质量。
当面临上下文相关限制（如 Token 上限、长轨迹推理准确度下降）或需要大规模降低成本时，请启动此技能。
预期输入包括原始提示词数据、对话轨迹与工具使用记录；输出为维持任务关键状态并经过优化的数据。
实务限制：压缩属于有损操作，应用策略前后务必进行衡量。优先执行 KV-cache 稳定化，因为此操作零风险；而过度激进的压缩则需谨慎处理，以避免遗失对上下文敏感的信息。本技能与平台无关，适用于 Claude Code 或一般 LLM SDK 环境。

简介