生產力
scraper avatar

scraper

自動化 CLI 工具,可將 Notion、DocSend、PDF 及一般網頁文件抓取並轉換為本地 PDF,支援工作階段持久化與背景常駐執行。

簡介

docs-scraper 是一款功能強大的 CLI 自動化代理程式,專為需要可靠存檔網頁內容的研究人員、開發者與知識管理人員設計。它專精於將複雜、受保護或動態的文件格式擷取並轉換為標準化的本地 PDF 檔案。透過背景常駐的瀏覽器自動化功能,它能保持工作階段設定檔的活躍狀態,讓使用者無須重複登入即可抓取受保護的文件資源。無論是處理內部的 Notion 知識庫、DocSend 投資人文件,或是需要 LLM 互動支援的一般網頁,本技能都提供了統一的文檔獲取介面。

  • 多源支援:原生支援 Notion、DocSend 與直接連結,並透過 Claude API 提供智慧型備援以處理一般網頁。

  • 工作階段持久化:透過具名設定檔管理 Cookie 與驗證狀態,確保對於受限內容的存取一致性。

  • 瀏覽器常駐服務:內建 Daemon 可保持瀏覽器執行個體運作以加速任務執行,並包含自動檔案清理機制以優化儲存空間。

  • 動態資料輸入:支援針對不同抓取器設定 Email、密碼與姓名等欄位,以處理各種登入流程與 NDA 簽署頁面。

  • 任務管理:透過 CLI 介面監控阻塞的任務、重試失敗的抓取作業,並管理本地輸出路徑。

  • LLM 智慧備援:利用 Claude 動態分析網頁結構、識別登入欄位,並自動繞過如 Cookie 同意彈窗等障礙。

  • 目標用戶:蒐集競爭情報的專業人士、備份文件檔的開發者,以及管理大量網頁資源的研究人員。

  • 使用限制:需要 Node.js 環境與基礎 CLI 操作能力;LLM 備援引擎需要有效的 ANTHROPIC_API_KEY。

  • 實用建議:使用 'scrape' 指令搭配 '-p' 設定檔標記以維持連線狀態。使用 'jobs list' 監控被阻擋的任務,並使用 'update' 指令透過表單欄位解決驗證問題。

  • 資料流程:輸入目標 URL,經由本地無頭瀏覽器自動化處理後,將 PDF 檔案匯出至 ~/.docs-scraper/output/ 目錄。

倉庫統計

Star 數
4,454
Fork 數
1,215
Open Issue 數
7
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月30日 上午10:41
在 GitHub 查看