自动化
agent-browser
先进的浏览器自动化工具,适用于研究、网页互动与数据提取,运行于安全的容器环境中。
简介
agent-browser 技能为 AI 代理提供强大的网页导航与互动能力,专为 NanoClaw 容器化生态系统而设计。它允许代理模拟人类浏览行为,执行复杂任务,包括网页导航、填写动态表单、点击互动元素以及提取结构化数据。此技能适合需要自动化网页工作流程,同时又希望通过 Linux 容器隔离确保主机环境安全的研究人员、工程师及专业用户。
-
完整的网页导航:包含打开、返回、前进、重新加载及 PDF 生成功能。
-
智能化快照:生成辅助功能树,并通过 DOM 引用(如 @e1)识别可交互元素。
-
交互工具套件:支持点击、双击、输入文字、勾选复选框、选择下拉菜单、悬停以及文件上传。
-
信息提取:提取文本、innerHTML、数值、属性、网页元数据,或计算指定元素的数量。
-
语义定位:通过角色 (role)、标签 (label)、占位符 (placeholder) 或可见文本等易于理解的属性搜索并交互。
-
会话管理:支持 Cookie 操作、本地存储管理,以及保存与加载身份验证状态以实现持久化。
-
JavaScript 执行:在浏览器上下文中执行自定义脚本,实现高级页面操作。
-
等待工具:支持针对特定元素、网络空闲状态、文本出现或网址模式进行智能等待。
-
最佳实践:在尝试交互前,务必先执行快照以获取最新且有效的元素引用。
-
效率:使用交互式快照 (-i) 以限制 DOM 树范围,减少处理时的 Token 消耗。
-
持久化:善用状态保存功能处理已登录的会话,避免重复登录程序。
-
隔离性:此技能通过安全 Bash 调用在容器环境中运作,确保不会直接访问主机的敏感资源。
-
监控:针对长时间执行的任务,利用截图功能定期捕捉浏览器视觉状态,供代理进行验证。
仓库统计
- Star 数
- 28,347
- Fork 数
- 12,710
- Open Issue 数
- 789
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 12:26