工程開發
context-optimization avatar

context-optimization

透過上下文視窗管理(包括 KV-cache 優化、觀察遮蔽、上下文壓縮與分割)來優化 AI 代理效能並降低運作成本。

簡介

此技能提供了一套系統化的上下文工程框架,專注於擴展有限 LLM 上下文視窗的有效容量。它專為建構生產級代理系統的開發者與 AI 工程師設計,以應對上下文限制、運作成本上升以及長對話或分析流程中的延遲問題。將上下文視窗視為有限資源,此技能強制執行資料管理的紀律,以維持模型的效能與一致性。

  • KV-cache 優化:透過提示詞排序與穩定化前綴,最大化推理引擎的快取命中率,進而顯著降低延遲與計算成本。

  • 觀察遮蔽 (Observation masking):在工具輸出完成任務後,將冗長的結果替換為簡潔的參考資訊,在回收大量 Token 預算的同時保留關鍵數據。

  • 上下文壓縮 (Context compaction):當使用率達到門檻時,對對話歷史與工具輸出進行智能總結,並透過系統提示詞錨定模型行為,確保關鍵資訊不受損失。

  • 上下文分割 (Context partitioning):將複雜任務拆解為多個獨立的子代理上下文,以避免視窗飽和並提升推理品質。

  • 當面臨上下文相關限制(如 Token 上限、長軌跡推理準確度下降)或需要大規模降低成本時,請啟動此技能。

  • 預期輸入包括原始提示詞數據、對話軌跡與工具使用記錄;輸出為維持任務關鍵狀態並經過優化的數據。

  • 實務限制:壓縮屬於有損操作,應用策略前後務必進行衡量。優先執行 KV-cache 穩定化,因為此操作零風險;而過度激進的壓縮則需謹慎處理,以避免遺失對上下文敏感的資訊。本技能與平台無關,適用於 Claude Code 或一般 LLM SDK 環境。

倉庫統計

Star 數
15,322
Fork 數
1,202
Open Issue 數
25
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月28日 上午11:00
在 GitHub 查看