生產力
ebook-extractor avatar

ebook-extractor

從 EPUB、MOBI 和 PDF 檔案中提取純文字,用於分析或處理。支援所有常見電子書格式,無需依賴外部 LLM。

簡介

ebook-extractor 技能提供了一套可靠且優先本地執行的解決方案,用於將各種電子書格式轉換為純文字。此技能專為需要處理數位圖書館、進行研究或為其他 AI 代理準備分析內容的用戶而設計,它簡化了複雜的檔案解析工作。透過利用專門的 Python 函式庫,確保在無需消耗昂貴的 LLM Token 或網際網路存取的情況下實現高保真的文字提取,同時兼顧資料隱私與本地工作流的效能。

  • 自動偵測 EPUB、MOBI 和 PDF 檔案格式。

  • 使用 ebooklib 與 BeautifulSoup 等穩健的函式庫來解析 EPUB 結構。

  • 整合 Calibre 的 ebook-convert 指令列工具,以處理專有 MOBI 格式的轉換需求。

  • 採用 PyMuPDF (fitz) 實現高效能的 PDF 文字提取。

  • 提供統一介面用於批次處理,並提供細粒度的腳本用於特定格式的偵錯。

  • 專為指令列整合而設計,支援將內容導出至文字檔或標準輸出串流。

  • 請確保透過隨附的 setup.sh 腳本準備環境,以自動處理依賴套件的安裝。

  • 注意某些 PDF 屬於影像型態或掃描檔,此工具不具備 OCR 功能,這類檔案可能無法輸出有效文字。

  • MOBI 格式支援需要於主機系統安裝 Calibre 軟體包。

  • 此工具最適合用於研究導向的任務,例如文件索引、內容稽核,或是將純文字輸入到 RAG 管線中以進行進一步的 AI 推理分析。

倉庫統計

Star 數
36
Fork 數
7
Open Issue 數
4
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月1日 上午09:56
在 GitHub 查看