brightdata-web-mcp
为 MCP 代理提供可靠的网页访问:执行网页抓取、绕过机器人检测、结构化数据提取与自动化浏览器操作。
简介
Bright Data Web MCP 为 AI 代理提供了一个强大且可投入生产的接口,用于与实时网络进行交互。它解决了网页抓取中的常见挑战,如验证码 (CAPTCHA)、动态 JavaScript 渲染内容以及反爬虫防御机制,让开发者能专注于构建智能代理工作流。通过整合此 MCP 服务器,代理程序无需管理复杂的底层基础设施,即可执行高保真数据提取、实时网络搜索与完整的浏览器自动化操作。
-
先进的反爬虫绕过技术:自动处理验证码与复杂的指纹防御机制。
-
多样化的抓取模式:将原始网址转换为干净的 Markdown,获取完整 HTML,或同时批处理多达 10 个请求。
-
AI 驱动的结构化提取:使用自然语言指令来提取特定数据字段(如价格、描述、库存状态)并转换为干净的 JSON 格式。
-
全面浏览器自动化:包含完整的浏览器会话控制,通过基于引用 (ref) 的交互进行点击、输入、滚动与网络请求监控。
-
专用数据工具套件:提供针对各大平台的预建提取器,包含 Amazon、LinkedIn、Instagram、TikTok、YouTube、Google Maps 及各类金融与商业聚合器。
-
可扩展性:支持 Rapid (免费) 模式用于轻量搜索任务,以及 Pro 模式用于高级浏览器交互与高量数据抓取。
-
请确保具备有效的 Bright Data API 密钥以启用 Pro/advanced_scraping 工具集。
-
对于动态 JS 渲染网页,请优先使用 scraping_browser_* 套件,以确保正确渲染与元素交互。
-
在处理多个数据源时,使用如 search_engine_batch 与 scrape_batch 等批处理工具来优化延迟与成本。
-
SSE/HTTP 端点设置支持远程运行,非常适合分布式代理架构。
-
请关注群组配置 (如 ecommerce, social 等),以便根据特定项目需求优化 Token 使用量与工具访问权限。
-
可通过 npx @brightdata/mcp 进行本地部署,从而无缝集成进如 CrewAI 或 smolagents 等自定义代理框架中。
仓库统计
- Star 数
- 34,466
- Fork 数
- 5,696
- Open Issue 数
- 127
- 主要语言
- Jupyter Notebook
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月1日 08:45