自動化
browsing avatar

browsing

透過 Chrome DevTools Protocol 直接控制瀏覽器,適用於自動化工作階段、多分頁管理、表單互動及結構化內容提取。

簡介

瀏覽技能提供了一種統一且高效的介面,透過 Chrome DevTools Protocol (CDP) 直接控制 Chrome。專為代理程式與開發者設計,本技能以自動化、可程式化的工作流程取代繁瑣的手動瀏覽器測試。核心功能圍繞 use_browser MCP 工具,實現對瀏覽器工作階段的精確控制,包括導航、元素互動、分頁管理與 DOM 層級的資料提取。藉由底層 CDP,它在處理持久性登入工作階段或受限環境時,比起標準的高階自動化框架更具穩定性與響應速度。每一步操作——從點擊按鈕到執行自訂 JavaScript——都會自動觸發自動擷取機制,產生結構化 Markdown、HTML 快照與視埠截圖,為代理程式的操作提供完整的審計能力。

  • 完整的 CDP 支援以進行細粒度的瀏覽器控制:導航、點擊、輸入、懸停、拖放及執行 JavaScript 程式碼。

  • 智慧型自動擷取系統:針對每個 DOM 操作自動紀錄頁面 HTML、結構化 Markdown、主控台日誌與截圖,確保操作具備可追溯性。

  • 靈活的分頁管理:支援在單一工作階段內開啟、關閉並切換多個瀏覽器分頁的焦點。

  • 強大的表單自動化:原生處理檔案上傳、複雜選單輸入及鍵盤事件模擬(如 Tab、Enter 及特殊按鍵)。

  • DOM 檢查與提取:提取特定屬性、完整文字內容或渲染後的 Markdown,促進資料抓取與網頁分析。

  • 視覺模式切換:可在有頭模式 (Headed) 與無頭模式 (Headless) 之間動態切換,以利偵錯或背景自動化任務。

  • 若在 Linux 或 WSL2 上使用有頭模式,請確保環境支援必要的顯示標頭(透過 DISPLAY 環境變數)。

  • 使用 CSS 選擇器以精確地與網頁元素進行互動;底層系統會處理元素查找與基於座標的滑鼠事件。

  • 在執行後續導航或提取操作前,請務必先將工作階段目錄中的自動擷取檔案作為決策的主要依據。

  • 請注意,某些操作(如 show_browser 或 hide_browser)會重新啟動 Chrome 實例,這可能會清除 POST 狀態資料。

  • 當 Playwright 顯得過於笨重,或者需要跨代理程式步驟維持持久性瀏覽器工作階段(如驗證過的登入狀態)時,本工具是最佳選擇。

倉庫統計

Star 數
266
Fork 數
39
Open Issue 數
5
主要語言
JavaScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 上午05:11
在 GitHub 查看