工程开发
parxy avatar

parxy

一个统一的文档处理网关,支持 PDF 解析、文本提取、格式转换与跨多种本地及云端供应商的文档操作。

简介

Parxy 是一个高性能的文档处理网关,旨在为复杂的文档工作流提供统一的接口。它抽象化了各种解析后端之间的差异,使开发者和自动化代理能够在本地库(如 PyMuPDF 和 Unstructured)或云端服务(如 LlamaParse、LLMWhisperer 和 PdfAct)之间切换,而无需更改底层应用程序逻辑。Parxy 的核心价值在于其一致的层级数据模型,能将文档处理为页面、文本块、行、字距和单个字符的结构化流程,并提供精确的边界框坐标和语义角色信息。这使其成为 AI 驱动的数据提取、RAG 管线和系统性文档转换任务的理想工具。

  • 统一的 API 接口,可在 PyMuPDF、PdfAct、LlamaParse、LLMWhisperer 和 Unstructured 等解析引擎之间切换。

  • 层级化的文档模型,提供结构性洞察(段落、标题)与空间数据(边界框坐标)。

  • 高级 PDF 操作工具,包括合并指定页码范围的文档、将文件拆分为单页,以及优化大型 PDF(清除元数据、字体子集化、图像压缩)。

  • 内置批处理功能,支持高流量文档导入、并行执行与流式结果处理。

  • 强大的命令行界面 (CLI),适用于快速原型设计,具备用于解析器对比的 TUI、交互式文档预览及直接转换为 Markdown 的功能。

  • 可扩展的架构,允许开发者集成自定义解析器或处理特定的 PDF 附件提取需求。

  • 最适合构建数据导入管线、研究自动化或文档管理代理的开发者。

  • 要求 Python 3.12+,并利用 Pydantic v2 进行数据验证与架构安全。

  • 提供基础包或扩展额外包(如 [all], [llama], [unstructured_local])的安装选项,以控制依赖项占用空间。

  • 输入主要是 PDF 文件,支持将复杂版面转换为结构化的 JSON 或 Markdown 格式。

  • 通过标准环境变量设置 API 密钥,并支持通过 .env 文件配置云端服务凭证,简化部署流程。

仓库统计

Star 数
9
Fork 数
1
Open Issue 数
3
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 16:07
在 GitHub 查看