工程開發
pdf avatar

pdf

多功能 PDF 處理工具包,支援文字與表格提取、文件合併/分割、表單填寫及 PDF 生成。適用於大規模自動化文檔處理與數據分析工作流程。

簡介

此 PDF 處理技能為 Claude 提供了一個強大的框架,用於以程式化方式與 PDF 文件進行互動。無論您需要將複雜的表格數據提取為 Excel 格式、合併多份技術報告、分割過大的文件,還是動態生成新的 PDF,此技能都整合了專業的 Python 庫與系統級工具。它專為工程師、數據分析師和研究人員設計,能夠在自動化工作流程中精確控制基於文檔的數據提取與內容創建任務。透過使用 pypdf、pdfplumber、reportlab 以及 poppler-utils 和 qpdf 等系統工具,該技能彌補了靜態文檔與可操作數據之間的差距,從而實現高吞吐量的處理與可靠的文件操作。

  • 進階數據提取:使用 pdfplumber 解析表格與文字佈局,將非結構化文檔轉換為結構化的 Pandas DataFrame 或 Excel 文件。

  • 文件組成與修改:使用 pypdf 和 qpdf 以程式化方式合併、分割、旋轉 PDF 頁面並加入浮水印。

  • 自動化 PDF 生成:利用 reportlab 從零開始構建多頁報告、發票或動態文檔。

  • 光學字元辨識 (OCR) 與掃描檔支援:使用 pytesseract 和 pdf2image 處理無法搜尋的圖像掃描檔,恢復文字內容。

  • 安全與元數據:提取文件屬性或對敏感文件施加密碼保護與加密。

  • 命令列整合:在 Linux 環境中無縫使用 pdftotext、pdftk 等系統級工具進行高效批次操作。

  • 此技能作為代理程式可存取的工具包運作;只需指定文件路徑與所需操作(例如「提取文檔中的所有表格」)即可觸發相關腳本。

  • 進行表格提取時,請確保文檔結構一致,以提高輸出數據框的準確性。

  • 處理掃描檔時,請確保主機環境已安裝 Tesseract OCR 依賴項。

  • 若有複雜的表單填寫或進階動態佈局需求,請參閱技能文檔中提供的 forms.md 或 reference.md 文件。

  • 大規模操作建議透過批次迴圈進行處理;在同時處理數百頁文件時,請確認文件權限與系統記憶體限制。

倉庫統計

Star 數
2,834
Fork 數
328
Open Issue 數
6
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月28日 下午12:46
在 GitHub 查看