生产力
ebook-extractor avatar

ebook-extractor

从 EPUB、MOBI 和 PDF 文件中提取纯文本,用于分析或处理。支持所有常见电子书格式,无需依赖外部 LLM。

简介

ebook-extractor 技能提供了一套可靠且优先本地执行的解决方案,用于将各种电子书格式转换为纯文本。此技能专为需要处理数字图书馆、进行研究或为其他 AI 代理准备分析内容的用户而设计,它简化了复杂的文档解析工作。通过利用专门的 Python 库,确保在无需消耗昂贵的 LLM Token 或互联网访问的情况下实现高保真的文本提取,同时兼顾数据隐私与本地工作流的性能。

  • 自动检测 EPUB、MOBI 和 PDF 文件格式。

  • 使用 ebooklib 与 BeautifulSoup 等稳健的库来解析 EPUB 结构。

  • 整合 Calibre 的 ebook-convert 命令行工具,以处理专有 MOBI 格式的转换需求。

  • 采用 PyMuPDF (fitz) 实现高性能的 PDF 文本提取。

  • 提供统一接口用于批量处理,并提供细粒度的脚本用于特定格式的调试。

  • 专为命令行整合而设计,支持将内容导出至文本文件或标准输出流。

  • 请确保通过随附的 setup.sh 脚本准备环境,以自动处理依赖包的安装。

  • 注意某些 PDF 属于图像型或扫描件,此工具不具备 OCR 功能,此类文件可能无法输出有效文本。

  • MOBI 格式支持需要在主机系统安装 Calibre 软件包。

  • 此工具最适合用于研究导向的任务,例如文档索引、内容审计,或是将纯文本输入到 RAG 管线中以进行进一步的 AI 推理分析。

仓库统计

Star 数
36
Fork 数
7
Open Issue 数
4
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 09:56
在 GitHub 查看