scraper
自动化 CLI 工具,可将 Notion、DocSend、PDF 及一般网页文件抓取并转换为本地 PDF,支持会话持久化与后台常驻执行。
简介
docs-scraper 是一款功能强大的 CLI 自动化代理程序,专为需要可靠存档网页内容的研究人员、开发者与知识管理人员设计。它专精于将复杂、受保护或动态的文件格式撷取并转换为标准化的本地 PDF 文件。通过后台常驻的浏览器自动化功能,它能保持会话配置文件的活跃状态,让用户无需重复登录即可抓取受保护的文件资源。无论是处理内部的 Notion 知识库、DocSend 投资人文件,或是需要 LLM 互动支持的一般网页,本技能都提供了统一的文档获取接口。
-
多源支持:原生支持 Notion、DocSend 与直接链接,并通过 Claude API 提供智能化备援以处理一般网页。
-
会话持久化:通过具名配置文件管理 Cookie 与验证状态,确保对于受限内容的访问一致性。
-
浏览器常驻服务:内置 Daemon 可保持浏览器实例运行以加速任务执行,并包含自动文件清理机制以优化存储空间。
-
动态数据输入:支持针对不同抓取器设置 Email、密码与姓名等字段,以处理各种登录流程与 NDA 签署页面。
-
任务管理:通过 CLI 接口监控阻塞的任务、重试失败的抓取作业,并管理本地输出路径。
-
LLM 智慧备援:利用 Claude 动态分析网页结构、识别登录字段,并自动绕过如 Cookie 同意弹窗等障碍。
-
目标用户:搜集竞争情报的专业人士、备份文档的开发者,以及管理大量网页资源的研究人员。
-
使用限制:需要 Node.js 环境与基础 CLI 操作能力;LLM 备援引擎需要有效的 ANTHROPIC_API_KEY。
-
实用建议:使用 'scrape' 指令搭配 '-p' 配置文件标记以维持连接状态。使用 'jobs list' 监控被阻塞的任务,并使用 'update' 指令通过表单字段解决验证问题。
-
数据流程:输入目标 URL,经由本地无头浏览器自动化处理后,将 PDF 文件导出至 ~/.docs-scraper/output/ 目录。
仓库统计
- Star 数
- 4,454
- Fork 数
- 1,215
- Open Issue 数
- 7
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 10:41