自动化
agent-browser avatar

agent-browser

先进的浏览器自动化工具,适用于研究、网页互动与数据提取,运行于安全的容器环境中。

简介

agent-browser 技能为 AI 代理提供强大的网页导航与互动能力,专为 NanoClaw 容器化生态系统而设计。它允许代理模拟人类浏览行为,执行复杂任务,包括网页导航、填写动态表单、点击互动元素以及提取结构化数据。此技能适合需要自动化网页工作流程,同时又希望通过 Linux 容器隔离确保主机环境安全的研究人员、工程师及专业用户。

  • 完整的网页导航:包含打开、返回、前进、重新加载及 PDF 生成功能。

  • 智能化快照:生成辅助功能树,并通过 DOM 引用(如 @e1)识别可交互元素。

  • 交互工具套件:支持点击、双击、输入文字、勾选复选框、选择下拉菜单、悬停以及文件上传。

  • 信息提取:提取文本、innerHTML、数值、属性、网页元数据,或计算指定元素的数量。

  • 语义定位:通过角色 (role)、标签 (label)、占位符 (placeholder) 或可见文本等易于理解的属性搜索并交互。

  • 会话管理:支持 Cookie 操作、本地存储管理,以及保存与加载身份验证状态以实现持久化。

  • JavaScript 执行:在浏览器上下文中执行自定义脚本,实现高级页面操作。

  • 等待工具:支持针对特定元素、网络空闲状态、文本出现或网址模式进行智能等待。

  • 最佳实践:在尝试交互前,务必先执行快照以获取最新且有效的元素引用。

  • 效率:使用交互式快照 (-i) 以限制 DOM 树范围,减少处理时的 Token 消耗。

  • 持久化:善用状态保存功能处理已登录的会话,避免重复登录程序。

  • 隔离性:此技能通过安全 Bash 调用在容器环境中运作,确保不会直接访问主机的敏感资源。

  • 监控:针对长时间执行的任务,利用截图功能定期捕捉浏览器视觉状态,供代理进行验证。

仓库统计

Star 数
28,347
Fork 数
12,710
Open Issue 数
789
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 12:26
在 GitHub 查看