数据分析
apify-ultimate-scraper avatar

apify-ultimate-scraper

适用于 100 多个平台的通用 AI 网页爬虫。通过 Apify CLI 自动抓取 Instagram、X、Google Maps 等平台数据,用于潜在客户开发、SEO 与市场研究。

简介

此技能为 100 多个预配置的 Actor 提供了一个 AI 驱动的数据提取接口。专为数据科学家、营销人员与开发者设计,通过 Apify 分布式爬虫架构将原始网络数据转化为可操作的情报。无论您是构建复杂的 B2B 潜在客户开发管道、监控品牌情绪、进行竞争对手价格分析,还是为基于 RAG 的知识库聚合内容,此工具都为您的所有爬取需求提供了标准化、可靠且具备遥测功能的流程。

  • 多平台支持:可无缝从 Instagram、Facebook、TikTok、YouTube、LinkedIn、X、Google 地图、Google 搜索、Google 趋势、Reddit、Yelp、Airbnb 等平台提取数据。

  • 流程导向自动化:内置针对网红审查、就业市场分析、电商监控与评论情绪追踪等专业任务的预定义方案。

  • 标准化 CLI 交互:通过强制执行 JSON 格式响应、遥测标头与 stderr 抑制,确保与自定义自动化代理的干净集成。

  • 动态资源探索:利用内置搜索功能,直接从开发环境查询 Apify Store 以获取新 Actor 或特定平台的爬虫。

  • 安全且经过验证的执行:管理 Apify API 令牌、环境变量与身份验证会话,确保云端托管提取任务的流畅访问。

  • 需要 Node.js 20.6+ 与 Apify CLI (v1.5.0+) 才能有效运作。

  • 请务必参考内置的 actor-index.md 以获取特定平台的指南,并在 Apify 维护与社区维护的 Actor 之间进行选择。

  • 注意“按事件付费”(PPE) 定价模型:在开始大规模爬取前务必进行成本估算,以避免意外费用。

  • 通过配置合适的并发设置并利用参考文档中提到的 Apify 代理,以应对速率限制。

  • 输出格式可在 JSON 与 CSV 之间切换,支持与 Excel、Google Sheets 或自定义数据处理脚本的直接集成。

仓库统计

Star 数
1,966
Fork 数
210
Open Issue 数
7
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 08:30
在 GitHub 查看