生产力
semantic-compression
积极精简输入内容中的语法结构与冗余文字,在保留核心语义的同时优化 LLM 的 Token 使用效率。
简介
Semantic Compression 是一款专为最大化上下文窗口效率而设计的工具,旨在将文字发送至 LLM 前,剔除其中非必要的语法结构。该工具专注于提取语义负载——即核心事实、指令与数据,同时丢弃模型可以自行重构的预测性语法填充物。对于从事复杂多轮 AI Agent 或长文本任务的开发者与研究人员而言,此过程对于优化 Token 成本与保持模型注意力至关重要。
本工具采用分级删除逻辑,自动移除冠词、系词与填充短语,并根据其对含义的影响,选择性地保留或删除代词、助动词与介词。通过将复杂的散文转换为名词/动词堆叠、标签/值对或简洁的片段,该工具强制产生更紧密的信息格式,帮助 LLM 专注于客观内容而非语法结构。它特别适用于将文档、日志或冗长的研究摘录准备给下游的 Agent 使用。
-
自动识别并修剪 Tier 1-3 语法标记(冠词、虚词、强调词、连接词)。
-
将被动语态转换为主动语态,并将名词化结构展开为直接动词,以减少字数并厘清动作主体。
-
保留否定词、时间数据、因果关系、不确定性指标与需求限制等关键标记。
-
通过维护技术术语、代码标识符与结构关系,支持开发者工作流程。
-
适用于 AI 编码 Agent、提示工程流水线及受上下文长度限制的 LLM 接口。
-
输入应为纯文本;输出通常是原输入的片段化、速记风格表达。
-
用户需注意,虽然此工具能保留语义,但输出结果可能缺乏标准的语法流畅度。
-
最适合机器对机器的上下文准备,而非人类阅读的摘要。
-
将输出限制在基本数据:专有名词、主要动词、数字、量词与条件标记。
-
在上下文窗口限制或延迟是主要性能瓶颈的会话中,可显著减少 Token 开销。
仓库统计
- Star 数
- 3,726
- Fork 数
- 347
- Open Issue 数
- 121
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月1日 08:32