自动化
browsing avatar

browsing

通过 Chrome DevTools Protocol 直接控制浏览器,适用于自动化会话、多标签页管理、表单交互及结构化内容提取。

简介

浏览技能提供了一种统一且高效的接口,通过 Chrome DevTools Protocol (CDP) 直接控制 Chrome。专为代理程序与开发者设计,本技能以自动化、可编程的工作流程取代繁琐的手动浏览器测试。核心功能围绕 use_browser MCP 工具,实现对浏览器会话的精确控制,包括导航、元素交互、标签页管理与 DOM 层级的资料提取。凭借底层 CDP,它在处理持久性登录会话或受限环境时,比标准的高级自动化框架更具稳定性和响应速度。每一步操作——从点击按钮到执行自定义 JavaScript——都会自动触发自动捕获机制,生成结构化 Markdown、HTML 快照与视口截图,为代理程序的操作提供完整的审计能力。

  • 完整的 CDP 支持以进行细粒度的浏览器控制:导航、点击、输入、悬停、拖放及执行 JavaScript 代码。

  • 智能自动捕获系统:针对每个 DOM 操作自动记录页面 HTML、结构化 Markdown、控制台日志与截图,确保操作具备可追溯性。

  • 灵活的标签页管理:支持在单个会话内打开、关闭并切换多个浏览器标签页的焦点。

  • 强大的表单自动化:原生处理文件上传、复杂菜单输入及键盘事件模拟(如 Tab、Enter 及特殊按键)。

  • DOM 检查与提取:提取特定属性、完整文本内容或渲染后的 Markdown,促进数据抓取与网页分析。

  • 视觉模式切换:可在有头模式 (Headed) 与无头模式 (Headless) 之间动态切换,以利调试或后台自动化任务。

  • 若在 Linux 或 WSL2 上使用有头模式,请确保环境支持必要的显示标头(通过 DISPLAY 环境变量)。

  • 使用 CSS 选择器以精确地与网页元素进行交互;底层系统会处理元素查找与基于坐标的鼠标事件。

  • 在执行后续导航或提取操作前,请务必先将会话目录中的自动捕获文件作为决策的主要依据。

  • 请注意,某些操作(如 show_browser 或 hide_browser)会重新启动 Chrome 实例,这可能会清除 POST 状态数据。

  • 当 Playwright 显得过于笨重,或者需要跨代理程序步骤维持持久性浏览器会话(如已验证的登录状态)时,本工具是最佳选择。

仓库统计

Star 数
266
Fork 数
39
Open Issue 数
5
主要语言
JavaScript
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 05:11
在 GitHub 查看