工程開發
brightdata-web-mcp avatar

brightdata-web-mcp

為 MCP 代理提供可靠的網路存取:執行網頁抓取、繞過機器人偵測、結構化數據提取與自動化瀏覽器操作。

簡介

Bright Data Web MCP 為 AI 代理提供了一個強大且可投入生產的介面,用於與即時網路進行互動。它解決了網頁抓取中的常見挑戰,如驗證碼 (CAPTCHA)、動態 JavaScript 渲染內容以及反爬蟲防禦機制,讓開發者能專注於建構智慧代理工作流。透過整合此 MCP 伺服器,代理程式無需管理複雜的基礎設施,即可執行高保真數據提取、即時網路搜尋與完整的瀏覽器自動化操作。

  • 先進的反爬蟲繞過技術:自動處理驗證碼與複雜的指紋防禦機制。

  • 多樣化的抓取模式:將原始網址轉換為乾淨的 Markdown,擷取完整 HTML,或同時批次處理多達 10 個請求。

  • AI 驅動的結構化提取:使用自然語言指令來提取特定數據欄位(如價格、描述、庫存狀態)並轉換為乾淨的 JSON 格式。

  • 全面瀏覽器自動化:包含完整的瀏覽器工作階段控制,透過基於參照 (ref) 的互動進行點擊、輸入、滾動與網路請求監控。

  • 專用數據工具套件:提供針對各大平台的預建提取器,包含 Amazon、LinkedIn、Instagram、TikTok、YouTube、Google Maps 及各類金融與商業聚合器。

  • 可擴展性:支援 Rapid (免費) 模式用於輕量搜尋任務,以及 Pro 模式用於進階瀏覽器互動與高量數據抓取。

  • 請確保具備有效的 Bright Data API 金鑰以啟用 Pro/advanced_scraping 工具集。

  • 對於動態 JS 渲染網頁,請優先使用 scraping_browser_* 套件,以確保正確渲染與元素互動。

  • 在處理多個數據源時,使用如 search_engine_batch 與 scrape_batch 等批次工具來優化延遲與成本。

  • SSE/HTTP 端點設置支援遠端運作,非常適合分散式代理架構。

  • 請關注群組配置 (如 ecommerce, social 等),以便根據特定專案需求優化 Token 使用量與工具存取權限。

  • 可透過 npx @brightdata/mcp 進行本地部署,從而無縫整合進如 CrewAI 或 smolagents 等自定義代理框架中。

倉庫統計

Star 數
34,466
Fork 數
5,696
Open Issue 數
127
主要語言
Jupyter Notebook
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月1日 上午08:45
在 GitHub 查看