crawl
爬取网站并将内容保存为整洁的 Markdown 文件。适用于文档提取、研究分析与离线知识库建立。
简介
Crawl 是一个强大的网页爬取 AI 技能,专为文档收集、知识库构建与深层网页内容分析而设计。透过整合 Tavily API,该技能使 AI Agent 能够智慧地导航网站、追踪链接并提取语意内容,将复杂的网页版面转换为简洁、可执行的 Markdown 文件。对于需要从线上来源获取结构化资料的研究人员与工程师而言,此工具无需手动编写爬虫程式即可完成任务。无论是归档技术文档、分析市场趋势,还是为检索增强生成 (RAG) 准备数据集,此工具都能透过可配置的深度、广度与路径过滤机制,确保高效的资料撷取。使用者可选择全页封存或情境优化分块,以在 LLM 对话中优化 Token 使用量。该技能支援 OAuth 与 API Key 两种认证方式,确保在任何开发环境下的稳定性与安全性。
-
透过 Tavily API 进行先进的网页内容提取,支援 Markdown 与纯文字格式输出。
-
具备递回爬取能力,支援可配置的深度(1-5 层)与广度限制。
-
支援基于正则表达式 (Regex) 的路径过滤,精确锁定文档、API 参考或特定版块。
-
专为 Agent 研究设计的各种内容感知分块模式,适合将内容置于 LLM 的 Token 视窗限制内。
-
支援 OAuth 与 API Key,便于在多种开发与部署环境中整合。
-
自动化文件输出,适合将网站文档封存为本地 Markdown 文件。
-
高效的资料采集效能,支援大规模网站爬取以供离线分析。
-
初次探索时建议将 max_depth 设定为 1,并使用 Regex 过滤规则以避免无限递回。
-
使用 instructions 参数可引导爬虫聚焦于 API 文档或安装指南等特定内容。
-
若要进行本地储存或 RAG 应用,建议使用 chunks_per_source 以保留重要情境并节省 Token。
-
使用者需确保 Tavily API Key 或 OAuth 工作阶段有效;可透过提供的 Bash 指令稿进行快速测试。
-
必须指定 output_dir 参数以进行批量本地储存,否则结果将以原始 JSON 物件形式传回。
-
大规模爬取时应注意效能限制,超过 max_depth=3 以上的设定需审慎使用,以避免过长的等待时间。
仓库统计
- Star 数
- 4,454
- Fork 数
- 1,215
- Open Issue 数
- 7
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 11:11