scraper

简介

docs-scraper 是一款功能强大的 CLI 自动化代理程序，专为需要可靠存档网页内容的研究人员、开发者与知识管理人员设计。它专精于将复杂、受保护或动态的文件格式撷取并转换为标准化的本地 PDF 文件。通过后台常驻的浏览器自动化功能，它能保持会话配置文件的活跃状态，让用户无需重复登录即可抓取受保护的文件资源。无论是处理内部的 Notion 知识库、DocSend 投资人文件，或是需要 LLM 互动支持的一般网页，本技能都提供了统一的文档获取接口。

多源支持：原生支持 Notion、DocSend 与直接链接，并通过 Claude API 提供智能化备援以处理一般网页。
会话持久化：通过具名配置文件管理 Cookie 与验证状态，确保对于受限内容的访问一致性。
浏览器常驻服务：内置 Daemon 可保持浏览器实例运行以加速任务执行，并包含自动文件清理机制以优化存储空间。
动态数据输入：支持针对不同抓取器设置 Email、密码与姓名等字段，以处理各种登录流程与 NDA 签署页面。
任务管理：通过 CLI 接口监控阻塞的任务、重试失败的抓取作业，并管理本地输出路径。
LLM 智慧备援：利用 Claude 动态分析网页结构、识别登录字段，并自动绕过如 Cookie 同意弹窗等障碍。
目标用户：搜集竞争情报的专业人士、备份文档的开发者，以及管理大量网页资源的研究人员。
使用限制：需要 Node.js 环境与基础 CLI 操作能力；LLM 备援引擎需要有效的 ANTHROPIC_API_KEY。
实用建议：使用 'scrape' 指令搭配 '-p' 配置文件标记以维持连接状态。使用 'jobs list' 监控被阻塞的任务，并使用 'update' 指令通过表单字段解决验证问题。
数据流程：输入目标 URL，经由本地无头浏览器自动化处理后，将 PDF 文件导出至 ~/.docs-scraper/output/ 目录。

创业课程

在线课程

实体课程

简介

仓库统计