scraper
自動化 CLI 工具,可將 Notion、DocSend、PDF 及一般網頁文件抓取並轉換為本地 PDF,支援工作階段持久化與背景常駐執行。
簡介
docs-scraper 是一款功能強大的 CLI 自動化代理程式,專為需要可靠存檔網頁內容的研究人員、開發者與知識管理人員設計。它專精於將複雜、受保護或動態的文件格式擷取並轉換為標準化的本地 PDF 檔案。透過背景常駐的瀏覽器自動化功能,它能保持工作階段設定檔的活躍狀態,讓使用者無須重複登入即可抓取受保護的文件資源。無論是處理內部的 Notion 知識庫、DocSend 投資人文件,或是需要 LLM 互動支援的一般網頁,本技能都提供了統一的文檔獲取介面。
-
多源支援:原生支援 Notion、DocSend 與直接連結,並透過 Claude API 提供智慧型備援以處理一般網頁。
-
工作階段持久化:透過具名設定檔管理 Cookie 與驗證狀態,確保對於受限內容的存取一致性。
-
瀏覽器常駐服務:內建 Daemon 可保持瀏覽器執行個體運作以加速任務執行,並包含自動檔案清理機制以優化儲存空間。
-
動態資料輸入:支援針對不同抓取器設定 Email、密碼與姓名等欄位,以處理各種登入流程與 NDA 簽署頁面。
-
任務管理:透過 CLI 介面監控阻塞的任務、重試失敗的抓取作業,並管理本地輸出路徑。
-
LLM 智慧備援:利用 Claude 動態分析網頁結構、識別登入欄位,並自動繞過如 Cookie 同意彈窗等障礙。
-
目標用戶:蒐集競爭情報的專業人士、備份文件檔的開發者,以及管理大量網頁資源的研究人員。
-
使用限制:需要 Node.js 環境與基礎 CLI 操作能力;LLM 備援引擎需要有效的 ANTHROPIC_API_KEY。
-
實用建議:使用 'scrape' 指令搭配 '-p' 設定檔標記以維持連線狀態。使用 'jobs list' 監控被阻擋的任務,並使用 'update' 指令透過表單欄位解決驗證問題。
-
資料流程:輸入目標 URL,經由本地無頭瀏覽器自動化處理後,將 PDF 檔案匯出至 ~/.docs-scraper/output/ 目錄。
倉庫統計
- Star 數
- 4,454
- Fork 數
- 1,215
- Open Issue 數
- 7
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 上午10:41