研究
crawl avatar

crawl

爬取网站并将内容保存为整洁的 Markdown 文件。适用于文档提取、研究分析与离线知识库建立。

简介

Crawl 是一个强大的网页爬取 AI 技能,专为文档收集、知识库构建与深层网页内容分析而设计。透过整合 Tavily API,该技能使 AI Agent 能够智慧地导航网站、追踪链接并提取语意内容,将复杂的网页版面转换为简洁、可执行的 Markdown 文件。对于需要从线上来源获取结构化资料的研究人员与工程师而言,此工具无需手动编写爬虫程式即可完成任务。无论是归档技术文档、分析市场趋势,还是为检索增强生成 (RAG) 准备数据集,此工具都能透过可配置的深度、广度与路径过滤机制,确保高效的资料撷取。使用者可选择全页封存或情境优化分块,以在 LLM 对话中优化 Token 使用量。该技能支援 OAuth 与 API Key 两种认证方式,确保在任何开发环境下的稳定性与安全性。

  • 透过 Tavily API 进行先进的网页内容提取,支援 Markdown 与纯文字格式输出。

  • 具备递回爬取能力,支援可配置的深度(1-5 层)与广度限制。

  • 支援基于正则表达式 (Regex) 的路径过滤,精确锁定文档、API 参考或特定版块。

  • 专为 Agent 研究设计的各种内容感知分块模式,适合将内容置于 LLM 的 Token 视窗限制内。

  • 支援 OAuth 与 API Key,便于在多种开发与部署环境中整合。

  • 自动化文件输出,适合将网站文档封存为本地 Markdown 文件。

  • 高效的资料采集效能,支援大规模网站爬取以供离线分析。

  • 初次探索时建议将 max_depth 设定为 1,并使用 Regex 过滤规则以避免无限递回。

  • 使用 instructions 参数可引导爬虫聚焦于 API 文档或安装指南等特定内容。

  • 若要进行本地储存或 RAG 应用,建议使用 chunks_per_source 以保留重要情境并节省 Token。

  • 使用者需确保 Tavily API Key 或 OAuth 工作阶段有效;可透过提供的 Bash 指令稿进行快速测试。

  • 必须指定 output_dir 参数以进行批量本地储存,否则结果将以原始 JSON 物件形式传回。

  • 大规模爬取时应注意效能限制,超过 max_depth=3 以上的设定需审慎使用,以避免过长的等待时间。

仓库统计

Star 数
4,454
Fork 数
1,215
Open Issue 数
7
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 11:11
在 GitHub 查看
crawl | Skills Hub