研究
crawl avatar

crawl

爬取網站並將內容儲存為乾淨的 Markdown 檔案。適用於文件擷取、研究分析與離線知識庫建立。

簡介

Crawl 是一個強大的網頁爬取 AI 技能,專為文件收集、知識庫構建與深層網頁內容分析而設計。透過整合 Tavily API,該技能使 AI Agent 能夠智慧地導航網站、追蹤連結並提取語意內容,將複雜的網頁版面轉換為簡潔、可執行的 Markdown 檔案。對於需要從線上來源獲取結構化資料的研究人員與工程師而言,此工具無需手動編寫爬蟲程式即可完成任務。無論是歸檔技術文件、分析市場趨勢,還是為檢索增強生成 (RAG) 準備資料集,此工具都能透過可配置的深度、廣度與路徑過濾機制,確保高效的資料擷取。使用者可選擇全頁封存或情境優化分塊,以在 LLM 對話中優化 Token 使用量。該技能支援 OAuth 與 API Key 兩種認證方式,確保在任何開發環境下的穩定性與安全性。

  • 透過 Tavily API 進行先進的網頁內容提取,支援 Markdown 與純文字格式輸出。

  • 具備遞迴爬取能力,支援可配置的深度(1-5 層)與廣度限制。

  • 支援基於正規表示式 (Regex) 的路徑過濾,精確鎖定文件、API 參考或特定版塊。

  • 專為 Agent 研究設計的內容感知分塊模式,適合將內容置於 LLM 的 Token 視窗限制內。

  • 支援 OAuth 與 API Key,便於在多種開發與部署環境中整合。

  • 自動化檔案輸出,適合將網站文件封存為本地 Markdown 檔案。

  • 高效的資料採集效能,支援大規模網站爬取以供離線分析。

  • 初次探索時建議將 max_depth 設定為 1,並使用 Regex 過濾規則以避免無限遞迴。

  • 使用 instructions 參數可引導爬蟲聚焦於 API 文件或安裝指南等特定內容。

  • 若要進行本地儲存或 RAG 應用,建議使用 chunks_per_source 以保留重要情境並節省 Token。

  • 使用者需確保 Tavily API Key 或 OAuth 工作階段有效;可透過提供的 Bash 指令稿進行快速測試。

  • 必須指定 output_dir 參數以進行批量本地儲存,否則結果將以原始 JSON 物件形式傳回。

  • 大規模爬取時應注意效能限制,超過 max_depth=3 以上的設定需審慎使用,以避免過長的等待時間。

倉庫統計

Star 數
4,454
Fork 數
1,215
Open Issue 數
7
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月30日 上午11:11
在 GitHub 查看