apify-ultimate-scraper
適用於 100 多個平台的通用 AI 網頁爬蟲。透過 Apify CLI 自動抓取 Instagram、X、Google Maps 等平台數據,用於潛在客戶開發、SEO 與市場研究。
簡介
此技能為 100 多個預配置的 Actor 提供了一個 AI 驅動的數據提取介面。專為數據科學家、營銷人員與開發者設計,透過 Apify 分佈式爬蟲架構將原始網絡數據轉化為可操作的情報。無論您是構建複雜的 B2B 潛在客戶開發管道、監控品牌情緒、進行競爭對手價格分析,還是為基於 RAG 的知識庫聚合內容,此工具都為您的所有爬取需求提供了標準化、可靠且具備遙測功能的流程。
-
多平台支援:可無縫從 Instagram、Facebook、TikTok、YouTube、LinkedIn、X、Google 地圖、Google 搜索、Google 趨勢、Reddit、Yelp、Airbnb 等平台提取數據。
-
流程導向自動化:內建針對網紅審查、就業市場分析、電商監控與評論情緒追踪等專業任務的預定義方案。
-
標準化 CLI 交互:透過強制執行 JSON 格式響應、遙測標頭與 stderr 抑制,確保與自定義自動化代理的乾淨集成。
-
動態資源探索:利用內建搜索功能,直接從開發環境查詢 Apify Store 以獲取新 Actor 或特定平台的爬蟲。
-
安全且經過驗證的執行:管理 Apify API 令牌、環境變量與身份驗證會話,確保雲端託管提取任務的流暢訪問。
-
需要 Node.js 20.6+ 與 Apify CLI (v1.5.0+) 才能有效運作。
-
請務必參考內建的 actor-index.md 以獲取特定平台的指南,並在 Apify 維護與社區維護的 Actor 之間進行選擇。
-
注意「按事件付費」(PPE) 定價模型:在開始大規模爬取前務必進行成本估算,以避免意外費用。
-
透過配置合適的並發設置並利用參考文檔中提到的 Apify 代理,以應對速率限制。
-
輸出格式可在 JSON 與 CSV 之間切換,支持與 Excel、Google Sheets 或自定義數據處理腳本的直接集成。
倉庫統計
- Star 數
- 1,966
- Fork 數
- 210
- Open Issue 數
- 7
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午08:30