crawl
爬取網站並將內容儲存為乾淨的 Markdown 檔案。適用於文件擷取、研究分析與離線知識庫建立。
簡介
Crawl 是一個強大的網頁爬取 AI 技能,專為文件收集、知識庫構建與深層網頁內容分析而設計。透過整合 Tavily API,該技能使 AI Agent 能夠智慧地導航網站、追蹤連結並提取語意內容,將複雜的網頁版面轉換為簡潔、可執行的 Markdown 檔案。對於需要從線上來源獲取結構化資料的研究人員與工程師而言,此工具無需手動編寫爬蟲程式即可完成任務。無論是歸檔技術文件、分析市場趨勢,還是為檢索增強生成 (RAG) 準備資料集,此工具都能透過可配置的深度、廣度與路徑過濾機制,確保高效的資料擷取。使用者可選擇全頁封存或情境優化分塊,以在 LLM 對話中優化 Token 使用量。該技能支援 OAuth 與 API Key 兩種認證方式,確保在任何開發環境下的穩定性與安全性。
-
透過 Tavily API 進行先進的網頁內容提取,支援 Markdown 與純文字格式輸出。
-
具備遞迴爬取能力,支援可配置的深度(1-5 層)與廣度限制。
-
支援基於正規表示式 (Regex) 的路徑過濾,精確鎖定文件、API 參考或特定版塊。
-
專為 Agent 研究設計的內容感知分塊模式,適合將內容置於 LLM 的 Token 視窗限制內。
-
支援 OAuth 與 API Key,便於在多種開發與部署環境中整合。
-
自動化檔案輸出,適合將網站文件封存為本地 Markdown 檔案。
-
高效的資料採集效能,支援大規模網站爬取以供離線分析。
-
初次探索時建議將 max_depth 設定為 1,並使用 Regex 過濾規則以避免無限遞迴。
-
使用 instructions 參數可引導爬蟲聚焦於 API 文件或安裝指南等特定內容。
-
若要進行本地儲存或 RAG 應用,建議使用 chunks_per_source 以保留重要情境並節省 Token。
-
使用者需確保 Tavily API Key 或 OAuth 工作階段有效;可透過提供的 Bash 指令稿進行快速測試。
-
必須指定 output_dir 參數以進行批量本地儲存,否則結果將以原始 JSON 物件形式傳回。
-
大規模爬取時應注意效能限制,超過 max_depth=3 以上的設定需審慎使用,以避免過長的等待時間。
倉庫統計
- Star 數
- 4,454
- Fork 數
- 1,215
- Open Issue 數
- 7
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 上午11:11