自動化
agent-browser avatar

agent-browser

先進的瀏覽器自動化工具,適用於研究、網頁互動與資料提取,運行於安全的容器環境中。

簡介

agent-browser 技能為 AI 代理提供強大的網頁導航與互動能力,專為 NanoClaw 容器化生態系統而設計。它允許代理模擬人類瀏覽行為,執行複雜任務,包括網頁導航、填寫動態表單、點擊互動元素以及提取結構化資料。此技能適合需要自動化網頁工作流程,同時又希望透過 Linux 容器隔離確保主機環境安全的研究人員、工程師及專業使用者。

  • 完整的網頁導航:包含開啟、返回、前進、重新載入及 PDF 產生功能。

  • 智慧型快照:產生無障礙樹狀圖,並透過 DOM 參考(如 @e1)識別可互動元素。

  • 互動工具套件:支援點擊、雙擊、輸入文字、勾選核取方塊、選擇下拉選單、懸停以及檔案上傳。

  • 資訊提取:提取文字、innerHTML、數值、屬性、網頁詮釋資料,或計算指定元素的數量。

  • 語意定位:透過角色 (role)、標籤 (label)、佔位符 (placeholder) 或可見文字等易於閱讀的屬性搜尋並互動。

  • 工作階段管理:支援 Cookie 操作、本機儲存空間管理,以及保存與載入身份驗證狀態以達成持久化。

  • JavaScript 執行:在瀏覽器上下文中執行自訂指令碼,實現進階頁面操作。

  • 等待工具:支援針對特定元素、網路空閒狀態、文字出現或網址模式進行智慧等待。

  • 最佳實踐:在嘗試互動前,務必先執行快照以獲取最新且有效的元素參考。

  • 效率:使用互動式快照 (-i) 以限制 DOM 樹範圍,減少處理時的 Token 消耗。

  • 持久化:善用狀態保存功能處理已登入的工作階段,避免重複登入程序。

  • 隔離性:此技能透過安全 Bash 呼叫在容器環境中運作,確保不會直接存取主機的敏感資源。

  • 監控:針對長時間執行的任務,利用截圖功能定期捕捉瀏覽器視覺狀態,供代理進行驗證。

倉庫統計

Star 數
28,347
Fork 數
12,710
Open Issue 數
789
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 下午12:26
在 GitHub 查看