生产力
scraper avatar

scraper

自动化 CLI 工具,可将 Notion、DocSend、PDF 及一般网页文件抓取并转换为本地 PDF,支持会话持久化与后台常驻执行。

简介

docs-scraper 是一款功能强大的 CLI 自动化代理程序,专为需要可靠存档网页内容的研究人员、开发者与知识管理人员设计。它专精于将复杂、受保护或动态的文件格式撷取并转换为标准化的本地 PDF 文件。通过后台常驻的浏览器自动化功能,它能保持会话配置文件的活跃状态,让用户无需重复登录即可抓取受保护的文件资源。无论是处理内部的 Notion 知识库、DocSend 投资人文件,或是需要 LLM 互动支持的一般网页,本技能都提供了统一的文档获取接口。

  • 多源支持:原生支持 Notion、DocSend 与直接链接,并通过 Claude API 提供智能化备援以处理一般网页。

  • 会话持久化:通过具名配置文件管理 Cookie 与验证状态,确保对于受限内容的访问一致性。

  • 浏览器常驻服务:内置 Daemon 可保持浏览器实例运行以加速任务执行,并包含自动文件清理机制以优化存储空间。

  • 动态数据输入:支持针对不同抓取器设置 Email、密码与姓名等字段,以处理各种登录流程与 NDA 签署页面。

  • 任务管理:通过 CLI 接口监控阻塞的任务、重试失败的抓取作业,并管理本地输出路径。

  • LLM 智慧备援:利用 Claude 动态分析网页结构、识别登录字段,并自动绕过如 Cookie 同意弹窗等障碍。

  • 目标用户:搜集竞争情报的专业人士、备份文档的开发者,以及管理大量网页资源的研究人员。

  • 使用限制:需要 Node.js 环境与基础 CLI 操作能力;LLM 备援引擎需要有效的 ANTHROPIC_API_KEY。

  • 实用建议:使用 'scrape' 指令搭配 '-p' 配置文件标记以维持连接状态。使用 'jobs list' 监控被阻塞的任务,并使用 'update' 指令通过表单字段解决验证问题。

  • 数据流程:输入目标 URL,经由本地无头浏览器自动化处理后,将 PDF 文件导出至 ~/.docs-scraper/output/ 目录。

仓库统计

Star 数
4,454
Fork 数
1,215
Open Issue 数
7
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 10:41
在 GitHub 查看