baoyu-url-to-markdown
透過 Chrome CDP 將任何網頁轉換為 Markdown。內建 X、YouTube 和 Hacker News 專用解析器,支援處理登入、驗證碼及媒體下載功能。
簡介
baoyu-url-to-markdown 技能是一款強大的網頁抓取與轉換工具,專為需要可靠內容擷取的進階用戶與研究人員設計。透過 baoyu-fetch CLI 利用 Chrome 開發者工具協議 (CDP),該技能可獲取已渲染的頁面內容,確保動態元素能被準確處理。它對於存檔文章、逐字稿或討論串特別有效,特別是標準基於 curl 的工具無法處理的場景。該技能包含針對 X (Twitter)、YouTube 和 Hacker News 等平台的專用解析器,可直接提取結構化數據或影片字幕。對於通用網頁,它使用 Defuddle 和 Readability 邏輯確保輸出的 Markdown 乾淨且易讀。它適用於知識工作者、開發人員與內容策展人,協助將網路資料整合至本地 LLM 工作流或 Obsidian、Logseq 等知識庫。
-
採用進階 Chrome CDP 渲染技術,繞過客戶端混淆與動態內容加載問題。
-
內建專用解析器註冊表,可從 X、YouTube 和 Hacker News 進行高保真資料提取。
-
支援互動模式,透過可配置的等待機制處理登入畫面與驗證碼 (CAPTCHA)。
-
提供媒體處理功能,可自動下載圖片與影片並自動重寫 Markdown 中的連結。
-
靈活的輸出格式,包含便於閱讀的 Markdown 或便於程式化處理的 JSON。
-
與本地檔案系統無縫整合,提供更有組織的歸檔方式。
-
運行環境建議安裝 Node.js 與 Bun,以確保無頭瀏覽器具備最佳執行效能。
-
初次設定需要透過引導流程定義媒體處理與預設輸出目錄,不支援靜默自動產生設定。
-
透過階層式的擴充設定檔 (EXTEND.md) 機制,支援跨專案的持久化參數管理。
-
提供強大的 CLI 介面,可透過人工指令觸發,或由 Agent 進行自動化批次抓取任務。
-
使用時需注意無頭 Chrome 實例佔用的系統資源;確保執行併發任務時系統記憶體充足。
-
建議用於需要驗證授權或複雜佈局解析的網頁資料擷取場景。
倉庫統計
- Star 數
- 16,764
- Fork 數
- 1,953
- Open Issue 數
- 1
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午08:53