生產力
baoyu-url-to-markdown avatar

baoyu-url-to-markdown

透過 Chrome CDP 將任何網頁轉換為 Markdown。內建 X、YouTube 和 Hacker News 專用解析器,支援處理登入、驗證碼及媒體下載功能。

簡介

baoyu-url-to-markdown 技能是一款強大的網頁抓取與轉換工具,專為需要可靠內容擷取的進階用戶與研究人員設計。透過 baoyu-fetch CLI 利用 Chrome 開發者工具協議 (CDP),該技能可獲取已渲染的頁面內容,確保動態元素能被準確處理。它對於存檔文章、逐字稿或討論串特別有效,特別是標準基於 curl 的工具無法處理的場景。該技能包含針對 X (Twitter)、YouTube 和 Hacker News 等平台的專用解析器,可直接提取結構化數據或影片字幕。對於通用網頁,它使用 Defuddle 和 Readability 邏輯確保輸出的 Markdown 乾淨且易讀。它適用於知識工作者、開發人員與內容策展人,協助將網路資料整合至本地 LLM 工作流或 Obsidian、Logseq 等知識庫。

  • 採用進階 Chrome CDP 渲染技術,繞過客戶端混淆與動態內容加載問題。

  • 內建專用解析器註冊表,可從 X、YouTube 和 Hacker News 進行高保真資料提取。

  • 支援互動模式,透過可配置的等待機制處理登入畫面與驗證碼 (CAPTCHA)。

  • 提供媒體處理功能,可自動下載圖片與影片並自動重寫 Markdown 中的連結。

  • 靈活的輸出格式,包含便於閱讀的 Markdown 或便於程式化處理的 JSON。

  • 與本地檔案系統無縫整合,提供更有組織的歸檔方式。

  • 運行環境建議安裝 Node.js 與 Bun,以確保無頭瀏覽器具備最佳執行效能。

  • 初次設定需要透過引導流程定義媒體處理與預設輸出目錄,不支援靜默自動產生設定。

  • 透過階層式的擴充設定檔 (EXTEND.md) 機制,支援跨專案的持久化參數管理。

  • 提供強大的 CLI 介面,可透過人工指令觸發,或由 Agent 進行自動化批次抓取任務。

  • 使用時需注意無頭 Chrome 實例佔用的系統資源;確保執行併發任務時系統記憶體充足。

  • 建議用於需要驗證授權或複雜佈局解析的網頁資料擷取場景。

倉庫統計

Star 數
16,764
Fork 數
1,953
Open Issue 數
1
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午08:53
在 GitHub 查看