工程開發
context-optimization
透過上下文視窗管理(包括 KV-cache 優化、觀察遮蔽、上下文壓縮與分割)來優化 AI 代理效能並降低運作成本。
簡介
此技能提供了一套系統化的上下文工程框架,專注於擴展有限 LLM 上下文視窗的有效容量。它專為建構生產級代理系統的開發者與 AI 工程師設計,以應對上下文限制、運作成本上升以及長對話或分析流程中的延遲問題。將上下文視窗視為有限資源,此技能強制執行資料管理的紀律,以維持模型的效能與一致性。
-
KV-cache 優化:透過提示詞排序與穩定化前綴,最大化推理引擎的快取命中率,進而顯著降低延遲與計算成本。
-
觀察遮蔽 (Observation masking):在工具輸出完成任務後,將冗長的結果替換為簡潔的參考資訊,在回收大量 Token 預算的同時保留關鍵數據。
-
上下文壓縮 (Context compaction):當使用率達到門檻時,對對話歷史與工具輸出進行智能總結,並透過系統提示詞錨定模型行為,確保關鍵資訊不受損失。
-
上下文分割 (Context partitioning):將複雜任務拆解為多個獨立的子代理上下文,以避免視窗飽和並提升推理品質。
-
當面臨上下文相關限制(如 Token 上限、長軌跡推理準確度下降)或需要大規模降低成本時,請啟動此技能。
-
預期輸入包括原始提示詞數據、對話軌跡與工具使用記錄;輸出為維持任務關鍵狀態並經過優化的數據。
-
實務限制:壓縮屬於有損操作,應用策略前後務必進行衡量。優先執行 KV-cache 穩定化,因為此操作零風險;而過度激進的壓縮則需謹慎處理,以避免遺失對上下文敏感的資訊。本技能與平台無關,適用於 Claude Code 或一般 LLM SDK 環境。
倉庫統計
- Star 數
- 15,322
- Fork 數
- 1,202
- Open Issue 數
- 25
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月28日 上午11:00