parxy

简介

Parxy 是一个高性能的文档处理网关，旨在为复杂的文档工作流提供统一的接口。它抽象化了各种解析后端之间的差异，使开发者和自动化代理能够在本地库（如 PyMuPDF 和 Unstructured）或云端服务（如 LlamaParse、LLMWhisperer 和 PdfAct）之间切换，而无需更改底层应用程序逻辑。Parxy 的核心价值在于其一致的层级数据模型，能将文档处理为页面、文本块、行、字距和单个字符的结构化流程，并提供精确的边界框坐标和语义角色信息。这使其成为 AI 驱动的数据提取、RAG 管线和系统性文档转换任务的理想工具。

统一的 API 接口，可在 PyMuPDF、PdfAct、LlamaParse、LLMWhisperer 和 Unstructured 等解析引擎之间切换。
层级化的文档模型，提供结构性洞察（段落、标题）与空间数据（边界框坐标）。
高级 PDF 操作工具，包括合并指定页码范围的文档、将文件拆分为单页，以及优化大型 PDF（清除元数据、字体子集化、图像压缩）。
内置批处理功能，支持高流量文档导入、并行执行与流式结果处理。
强大的命令行界面 (CLI)，适用于快速原型设计，具备用于解析器对比的 TUI、交互式文档预览及直接转换为 Markdown 的功能。
可扩展的架构，允许开发者集成自定义解析器或处理特定的 PDF 附件提取需求。
最适合构建数据导入管线、研究自动化或文档管理代理的开发者。
要求 Python 3.12+，并利用 Pydantic v2 进行数据验证与架构安全。
提供基础包或扩展额外包（如 [all], [llama], [unstructured_local]）的安装选项，以控制依赖项占用空间。
输入主要是 PDF 文件，支持将复杂版面转换为结构化的 JSON 或 Markdown 格式。
通过标准环境变量设置 API 密钥，并支持通过 .env 文件配置云端服务凭证，简化部署流程。

创业课程

在线课程

实体课程

简介

仓库统计