生產力
semantic-compression
積極精簡輸入內容中的語法結構與冗餘文字,在保留核心語義的同時優化 LLM 的 Token 使用效率。
簡介
Semantic Compression 是一款專為最大化上下文窗口效率而設計的工具,旨在將文字發送至 LLM 前,剔除其中非必要的語法結構。該工具專注於提取語義負載——即核心事實、指令與數據,同時丟棄模型可以自行重構的預測性語法填充物。對於從事複雜多輪 AI Agent 或長文本任務的開發者與研究人員而言,此過程對於優化 Token 成本與保持模型注意力至關重要。
本工具採用分級刪除邏輯,自動移除冠詞、繫詞與填充短語,並根據其對含義的影響,選擇性地保留或刪除代詞、助動詞與介詞。透過將複雜的散文轉換為名詞/動詞堆疊、標籤/值對或簡潔的片段,該工具強制產生更緊密的資訊格式,幫助 LLM 專注於客觀內容而非語法結構。它特別適用於將文檔、日誌或冗長的研究摘錄準備給下游的 Agent 使用。
-
自動識別並修剪 Tier 1-3 語法標記(冠詞、虛詞、強調詞、連接詞)。
-
將被動語態轉換為主動語態,並將名詞化結構展開為直接動詞,以減少字數並釐清動作主體。
-
保留否定詞、時間數據、因果關係、不確定性指標與需求限制等關鍵標記。
-
透過維護技術術語、代碼標識符與結構關係,支持開發者工作流程。
-
適用於 AI 編碼 Agent、提示工程流水線及受上下文長度限制的 LLM 介面。
-
輸入應為純文字;輸出通常是原輸入的片段化、速記風格表達。
-
用戶需注意,雖然此工具能保留語義,但輸出結果可能缺乏標準的語法流暢度。
-
最適合機器對機器的上下文準備,而非人類閱讀的摘要。
-
將輸出限制在基本數據:專有名詞、主要動詞、數字、量詞與條件標記。
-
在上下文窗口限制或延遲是主要效能瓶頸的會話中,可顯著減少 Token 開銷。
倉庫統計
- Star 數
- 3,726
- Fork 數
- 347
- Open Issue 數
- 121
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月1日 上午08:32