apify-ultimate-scraper
适用于 100 多个平台的通用 AI 网页爬虫。通过 Apify CLI 自动抓取 Instagram、X、Google Maps 等平台数据,用于潜在客户开发、SEO 与市场研究。
简介
此技能为 100 多个预配置的 Actor 提供了一个 AI 驱动的数据提取接口。专为数据科学家、营销人员与开发者设计,通过 Apify 分布式爬虫架构将原始网络数据转化为可操作的情报。无论您是构建复杂的 B2B 潜在客户开发管道、监控品牌情绪、进行竞争对手价格分析,还是为基于 RAG 的知识库聚合内容,此工具都为您的所有爬取需求提供了标准化、可靠且具备遥测功能的流程。
-
多平台支持:可无缝从 Instagram、Facebook、TikTok、YouTube、LinkedIn、X、Google 地图、Google 搜索、Google 趋势、Reddit、Yelp、Airbnb 等平台提取数据。
-
流程导向自动化:内置针对网红审查、就业市场分析、电商监控与评论情绪追踪等专业任务的预定义方案。
-
标准化 CLI 交互:通过强制执行 JSON 格式响应、遥测标头与 stderr 抑制,确保与自定义自动化代理的干净集成。
-
动态资源探索:利用内置搜索功能,直接从开发环境查询 Apify Store 以获取新 Actor 或特定平台的爬虫。
-
安全且经过验证的执行:管理 Apify API 令牌、环境变量与身份验证会话,确保云端托管提取任务的流畅访问。
-
需要 Node.js 20.6+ 与 Apify CLI (v1.5.0+) 才能有效运作。
-
请务必参考内置的 actor-index.md 以获取特定平台的指南,并在 Apify 维护与社区维护的 Actor 之间进行选择。
-
注意“按事件付费”(PPE) 定价模型:在开始大规模爬取前务必进行成本估算,以避免意外费用。
-
通过配置合适的并发设置并利用参考文档中提到的 Apify 代理,以应对速率限制。
-
输出格式可在 JSON 与 CSV 之间切换,支持与 Excel、Google Sheets 或自定义数据处理脚本的直接集成。
仓库统计
- Star 数
- 1,966
- Fork 数
- 210
- Open Issue 数
- 7
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 08:30