crawl

简介

Crawl 是一个强大的网页爬取 AI 技能，专为文档收集、知识库构建与深层网页内容分析而设计。透过整合 Tavily API，该技能使 AI Agent 能够智慧地导航网站、追踪链接并提取语意内容，将复杂的网页版面转换为简洁、可执行的 Markdown 文件。对于需要从线上来源获取结构化资料的研究人员与工程师而言，此工具无需手动编写爬虫程式即可完成任务。无论是归档技术文档、分析市场趋势，还是为检索增强生成 (RAG) 准备数据集，此工具都能透过可配置的深度、广度与路径过滤机制，确保高效的资料撷取。使用者可选择全页封存或情境优化分块，以在 LLM 对话中优化 Token 使用量。该技能支援 OAuth 与 API Key 两种认证方式，确保在任何开发环境下的稳定性与安全性。

透过 Tavily API 进行先进的网页内容提取，支援 Markdown 与纯文字格式输出。
具备递回爬取能力，支援可配置的深度（1-5 层）与广度限制。
支援基于正则表达式 (Regex) 的路径过滤，精确锁定文档、API 参考或特定版块。
专为 Agent 研究设计的各种内容感知分块模式，适合将内容置于 LLM 的 Token 视窗限制内。
支援 OAuth 与 API Key，便于在多种开发与部署环境中整合。
自动化文件输出，适合将网站文档封存为本地 Markdown 文件。
高效的资料采集效能，支援大规模网站爬取以供离线分析。
初次探索时建议将 max_depth 设定为 1，并使用 Regex 过滤规则以避免无限递回。
使用 instructions 参数可引导爬虫聚焦于 API 文档或安装指南等特定内容。
若要进行本地储存或 RAG 应用，建议使用 chunks_per_source 以保留重要情境并节省 Token。
使用者需确保 Tavily API Key 或 OAuth 工作阶段有效；可透过提供的 Bash 指令稿进行快速测试。
必须指定 output_dir 参数以进行批量本地储存，否则结果将以原始 JSON 物件形式传回。
大规模爬取时应注意效能限制，超过 max_depth=3 以上的设定需审慎使用，以避免过长的等待时间。

创业课程

在线课程

实体课程

简介

仓库统计