baoyu-url-to-markdown
通过 Chrome CDP 将任何网页转换为 Markdown。内置 X、YouTube 和 Hacker News 专用解析器,支持处理登录、验证码及媒体下载功能。
简介
baoyu-url-to-markdown 技能是一款强大的网页抓取与转换工具,专为需要可靠内容提取的进阶用户与研究人员设计。通过 baoyu-fetch CLI 利用 Chrome 开发者工具协议 (CDP),该技能可获取已渲染的页面内容,确保动态元素能被准确处理。它对于存档文章、逐字稿或讨论串特别有效,特别是标准基于 curl 的工具无法处理的场景。该技能包含针对 X (Twitter)、YouTube 和 Hacker News 等平台的专用解析器,可直接提取结构化数据或视频字幕。对于通用网页,它使用 Defuddle 和 Readability 逻辑确保输出的 Markdown 干净且易读。它适用于知识工作者、开发人员与内容策展人,协助将网络资料整合至本地 LLM 工作流或 Obsidian、Logseq 等知识库。
-
采用进阶 Chrome CDP 渲染技术,绕过客户端混淆与动态内容加载问题。
-
内置专用解析器注册表,可从 X、YouTube 和 Hacker News 进行高保真数据提取。
-
支持互动模式,通过可配置的等待机制处理登录画面与验证码 (CAPTCHA)。
-
提供媒体处理功能,可自动下载图片与视频并自动重写 Markdown 中的链接。
-
灵活的输出格式,包含便于阅读的 Markdown 或便于程序化处理的 JSON。
-
与本地文件系统无缝整合,提供更有组织的归档方式。
-
运行环境建议安装 Node.js 与 Bun,以确保无头浏览器具备最佳执行效能。
-
初次设置需要通过引导流程定义媒体处理与默认输出目录,不支持静默自动产生设置。
-
通过阶层式的扩展配置文件 (EXTEND.md) 机制,支持跨项目的持久化参数管理。
-
提供强大的 CLI 接口,可通过人工指令触发,或由 Agent 进行自动化批次抓取任务。
-
使用时需注意无头 Chrome 实例占用的系统资源;确保执行并发任务时系统内存充足。
-
建议用于需要验证授权或复杂布局解析的网页资料提取场景。
仓库统计
- Star 数
- 16,764
- Fork 数
- 1,953
- Open Issue 数
- 1
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 08:53