生产力
ebook-extractor
从 EPUB、MOBI 和 PDF 文件中提取纯文本,用于分析或处理。支持所有常见电子书格式,无需依赖外部 LLM。
简介
ebook-extractor 技能提供了一套可靠且优先本地执行的解决方案,用于将各种电子书格式转换为纯文本。此技能专为需要处理数字图书馆、进行研究或为其他 AI 代理准备分析内容的用户而设计,它简化了复杂的文档解析工作。通过利用专门的 Python 库,确保在无需消耗昂贵的 LLM Token 或互联网访问的情况下实现高保真的文本提取,同时兼顾数据隐私与本地工作流的性能。
-
自动检测 EPUB、MOBI 和 PDF 文件格式。
-
使用 ebooklib 与 BeautifulSoup 等稳健的库来解析 EPUB 结构。
-
整合 Calibre 的 ebook-convert 命令行工具,以处理专有 MOBI 格式的转换需求。
-
采用 PyMuPDF (fitz) 实现高性能的 PDF 文本提取。
-
提供统一接口用于批量处理,并提供细粒度的脚本用于特定格式的调试。
-
专为命令行整合而设计,支持将内容导出至文本文件或标准输出流。
-
请确保通过随附的 setup.sh 脚本准备环境,以自动处理依赖包的安装。
-
注意某些 PDF 属于图像型或扫描件,此工具不具备 OCR 功能,此类文件可能无法输出有效文本。
-
MOBI 格式支持需要在主机系统安装 Calibre 软件包。
-
此工具最适合用于研究导向的任务,例如文档索引、内容审计,或是将纯文本输入到 RAG 管线中以进行进一步的 AI 推理分析。
仓库统计
- Star 数
- 36
- Fork 数
- 7
- Open Issue 数
- 4
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月1日 09:56