scraper

簡介

docs-scraper 是一款功能強大的 CLI 自動化代理程式，專為需要可靠存檔網頁內容的研究人員、開發者與知識管理人員設計。它專精於將複雜、受保護或動態的文件格式擷取並轉換為標準化的本地 PDF 檔案。透過背景常駐的瀏覽器自動化功能，它能保持工作階段設定檔的活躍狀態，讓使用者無須重複登入即可抓取受保護的文件資源。無論是處理內部的 Notion 知識庫、DocSend 投資人文件，或是需要 LLM 互動支援的一般網頁，本技能都提供了統一的文檔獲取介面。

多源支援：原生支援 Notion、DocSend 與直接連結，並透過 Claude API 提供智慧型備援以處理一般網頁。
工作階段持久化：透過具名設定檔管理 Cookie 與驗證狀態，確保對於受限內容的存取一致性。
瀏覽器常駐服務：內建 Daemon 可保持瀏覽器執行個體運作以加速任務執行，並包含自動檔案清理機制以優化儲存空間。
動態資料輸入：支援針對不同抓取器設定 Email、密碼與姓名等欄位，以處理各種登入流程與 NDA 簽署頁面。
任務管理：透過 CLI 介面監控阻塞的任務、重試失敗的抓取作業，並管理本地輸出路徑。
LLM 智慧備援：利用 Claude 動態分析網頁結構、識別登入欄位，並自動繞過如 Cookie 同意彈窗等障礙。
目標用戶：蒐集競爭情報的專業人士、備份文件檔的開發者，以及管理大量網頁資源的研究人員。
使用限制：需要 Node.js 環境與基礎 CLI 操作能力；LLM 備援引擎需要有效的 ANTHROPIC_API_KEY。
實用建議：使用 'scrape' 指令搭配 '-p' 設定檔標記以維持連線狀態。使用 'jobs list' 監控被阻擋的任務，並使用 'update' 指令透過表單欄位解決驗證問題。
資料流程：輸入目標 URL，經由本地無頭瀏覽器自動化處理後，將 PDF 檔案匯出至 ~/.docs-scraper/output/ 目錄。

創業課程

網上課程

實體課程

簡介

倉庫統計