生產力
ebook-extractor
從 EPUB、MOBI 和 PDF 檔案中提取純文字,用於分析或處理。支援所有常見電子書格式,無需依賴外部 LLM。
簡介
ebook-extractor 技能提供了一套可靠且優先本地執行的解決方案,用於將各種電子書格式轉換為純文字。此技能專為需要處理數位圖書館、進行研究或為其他 AI 代理準備分析內容的用戶而設計,它簡化了複雜的檔案解析工作。透過利用專門的 Python 函式庫,確保在無需消耗昂貴的 LLM Token 或網際網路存取的情況下實現高保真的文字提取,同時兼顧資料隱私與本地工作流的效能。
-
自動偵測 EPUB、MOBI 和 PDF 檔案格式。
-
使用 ebooklib 與 BeautifulSoup 等穩健的函式庫來解析 EPUB 結構。
-
整合 Calibre 的 ebook-convert 指令列工具,以處理專有 MOBI 格式的轉換需求。
-
採用 PyMuPDF (fitz) 實現高效能的 PDF 文字提取。
-
提供統一介面用於批次處理,並提供細粒度的腳本用於特定格式的偵錯。
-
專為指令列整合而設計,支援將內容導出至文字檔或標準輸出串流。
-
請確保透過隨附的 setup.sh 腳本準備環境,以自動處理依賴套件的安裝。
-
注意某些 PDF 屬於影像型態或掃描檔,此工具不具備 OCR 功能,這類檔案可能無法輸出有效文字。
-
MOBI 格式支援需要於主機系統安裝 Calibre 軟體包。
-
此工具最適合用於研究導向的任務,例如文件索引、內容稽核,或是將純文字輸入到 RAG 管線中以進行進一步的 AI 推理分析。
倉庫統計
- Star 數
- 36
- Fork 數
- 7
- Open Issue 數
- 4
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月1日 上午09:56