工程开发
brightdata-web-mcp avatar

brightdata-web-mcp

为 MCP 代理提供可靠的网页访问:执行网页抓取、绕过机器人检测、结构化数据提取与自动化浏览器操作。

简介

Bright Data Web MCP 为 AI 代理提供了一个强大且可投入生产的接口,用于与实时网络进行交互。它解决了网页抓取中的常见挑战,如验证码 (CAPTCHA)、动态 JavaScript 渲染内容以及反爬虫防御机制,让开发者能专注于构建智能代理工作流。通过整合此 MCP 服务器,代理程序无需管理复杂的底层基础设施,即可执行高保真数据提取、实时网络搜索与完整的浏览器自动化操作。

  • 先进的反爬虫绕过技术:自动处理验证码与复杂的指纹防御机制。

  • 多样化的抓取模式:将原始网址转换为干净的 Markdown,获取完整 HTML,或同时批处理多达 10 个请求。

  • AI 驱动的结构化提取:使用自然语言指令来提取特定数据字段(如价格、描述、库存状态)并转换为干净的 JSON 格式。

  • 全面浏览器自动化:包含完整的浏览器会话控制,通过基于引用 (ref) 的交互进行点击、输入、滚动与网络请求监控。

  • 专用数据工具套件:提供针对各大平台的预建提取器,包含 Amazon、LinkedIn、Instagram、TikTok、YouTube、Google Maps 及各类金融与商业聚合器。

  • 可扩展性:支持 Rapid (免费) 模式用于轻量搜索任务,以及 Pro 模式用于高级浏览器交互与高量数据抓取。

  • 请确保具备有效的 Bright Data API 密钥以启用 Pro/advanced_scraping 工具集。

  • 对于动态 JS 渲染网页,请优先使用 scraping_browser_* 套件,以确保正确渲染与元素交互。

  • 在处理多个数据源时,使用如 search_engine_batch 与 scrape_batch 等批处理工具来优化延迟与成本。

  • SSE/HTTP 端点设置支持远程运行,非常适合分布式代理架构。

  • 请关注群组配置 (如 ecommerce, social 等),以便根据特定项目需求优化 Token 使用量与工具访问权限。

  • 可通过 npx @brightdata/mcp 进行本地部署,从而无缝集成进如 CrewAI 或 smolagents 等自定义代理框架中。

仓库统计

Star 数
34,466
Fork 数
5,696
Open Issue 数
127
主要语言
Jupyter Notebook
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 08:45
在 GitHub 查看
brightdata-web-mcp | Skills Hub