parxy
一个统一的文档处理网关,支持 PDF 解析、文本提取、格式转换与跨多种本地及云端供应商的文档操作。
简介
Parxy 是一个高性能的文档处理网关,旨在为复杂的文档工作流提供统一的接口。它抽象化了各种解析后端之间的差异,使开发者和自动化代理能够在本地库(如 PyMuPDF 和 Unstructured)或云端服务(如 LlamaParse、LLMWhisperer 和 PdfAct)之间切换,而无需更改底层应用程序逻辑。Parxy 的核心价值在于其一致的层级数据模型,能将文档处理为页面、文本块、行、字距和单个字符的结构化流程,并提供精确的边界框坐标和语义角色信息。这使其成为 AI 驱动的数据提取、RAG 管线和系统性文档转换任务的理想工具。
-
统一的 API 接口,可在 PyMuPDF、PdfAct、LlamaParse、LLMWhisperer 和 Unstructured 等解析引擎之间切换。
-
层级化的文档模型,提供结构性洞察(段落、标题)与空间数据(边界框坐标)。
-
高级 PDF 操作工具,包括合并指定页码范围的文档、将文件拆分为单页,以及优化大型 PDF(清除元数据、字体子集化、图像压缩)。
-
内置批处理功能,支持高流量文档导入、并行执行与流式结果处理。
-
强大的命令行界面 (CLI),适用于快速原型设计,具备用于解析器对比的 TUI、交互式文档预览及直接转换为 Markdown 的功能。
-
可扩展的架构,允许开发者集成自定义解析器或处理特定的 PDF 附件提取需求。
-
最适合构建数据导入管线、研究自动化或文档管理代理的开发者。
-
要求 Python 3.12+,并利用 Pydantic v2 进行数据验证与架构安全。
-
提供基础包或扩展额外包(如 [all], [llama], [unstructured_local])的安装选项,以控制依赖项占用空间。
-
输入主要是 PDF 文件,支持将复杂版面转换为结构化的 JSON 或 Markdown 格式。
-
通过标准环境变量设置 API 密钥,并支持通过 .env 文件配置云端服务凭证,简化部署流程。
仓库统计
- Star 数
- 9
- Fork 数
- 1
- Open Issue 数
- 3
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 16:07