context-optimization

簡介

此技能提供了一套系統化的上下文工程框架，專注於擴展有限 LLM 上下文視窗的有效容量。它專為建構生產級代理系統的開發者與 AI 工程師設計，以應對上下文限制、運作成本上升以及長對話或分析流程中的延遲問題。將上下文視窗視為有限資源，此技能強制執行資料管理的紀律，以維持模型的效能與一致性。

KV-cache 優化：透過提示詞排序與穩定化前綴，最大化推理引擎的快取命中率，進而顯著降低延遲與計算成本。
觀察遮蔽 (Observation masking)：在工具輸出完成任務後，將冗長的結果替換為簡潔的參考資訊，在回收大量 Token 預算的同時保留關鍵數據。
上下文壓縮 (Context compaction)：當使用率達到門檻時，對對話歷史與工具輸出進行智能總結，並透過系統提示詞錨定模型行為，確保關鍵資訊不受損失。
上下文分割 (Context partitioning)：將複雜任務拆解為多個獨立的子代理上下文，以避免視窗飽和並提升推理品質。
當面臨上下文相關限制（如 Token 上限、長軌跡推理準確度下降）或需要大規模降低成本時，請啟動此技能。
預期輸入包括原始提示詞數據、對話軌跡與工具使用記錄；輸出為維持任務關鍵狀態並經過優化的數據。
實務限制：壓縮屬於有損操作，應用策略前後務必進行衡量。優先執行 KV-cache 穩定化，因為此操作零風險；而過度激進的壓縮則需謹慎處理，以避免遺失對上下文敏感的資訊。本技能與平台無關，適用於 Claude Code 或一般 LLM SDK 環境。

簡介