crawl

簡介

Crawl 是一個強大的網頁爬取 AI 技能，專為文件收集、知識庫構建與深層網頁內容分析而設計。透過整合 Tavily API，該技能使 AI Agent 能夠智慧地導航網站、追蹤連結並提取語意內容，將複雜的網頁版面轉換為簡潔、可執行的 Markdown 檔案。對於需要從線上來源獲取結構化資料的研究人員與工程師而言，此工具無需手動編寫爬蟲程式即可完成任務。無論是歸檔技術文件、分析市場趨勢，還是為檢索增強生成 (RAG) 準備資料集，此工具都能透過可配置的深度、廣度與路徑過濾機制，確保高效的資料擷取。使用者可選擇全頁封存或情境優化分塊，以在 LLM 對話中優化 Token 使用量。該技能支援 OAuth 與 API Key 兩種認證方式，確保在任何開發環境下的穩定性與安全性。

透過 Tavily API 進行先進的網頁內容提取，支援 Markdown 與純文字格式輸出。
具備遞迴爬取能力，支援可配置的深度（1-5 層）與廣度限制。
支援基於正規表示式 (Regex) 的路徑過濾，精確鎖定文件、API 參考或特定版塊。
專為 Agent 研究設計的內容感知分塊模式，適合將內容置於 LLM 的 Token 視窗限制內。
支援 OAuth 與 API Key，便於在多種開發與部署環境中整合。
自動化檔案輸出，適合將網站文件封存為本地 Markdown 檔案。
高效的資料採集效能，支援大規模網站爬取以供離線分析。
初次探索時建議將 max_depth 設定為 1，並使用 Regex 過濾規則以避免無限遞迴。
使用 instructions 參數可引導爬蟲聚焦於 API 文件或安裝指南等特定內容。
若要進行本地儲存或 RAG 應用，建議使用 chunks_per_source 以保留重要情境並節省 Token。
使用者需確保 Tavily API Key 或 OAuth 工作階段有效；可透過提供的 Bash 指令稿進行快速測試。
必須指定 output_dir 參數以進行批量本地儲存，否則結果將以原始 JSON 物件形式傳回。
大規模爬取時應注意效能限制，超過 max_depth=3 以上的設定需審慎使用，以避免過長的等待時間。

創業課程

網上課程

實體課程

簡介

倉庫統計