split-pdf

简介

split-pdf 是一款专为学术研究打造的工具，旨在解决大型语言模型处理长篇学术文档时的限制。通过将庞大的 PDF 自动拆解为易于管理的四页片段，本工具实现了一种迭代式深度阅读流程，能系统化地建立结构化阅读笔记。它特别适用于需要分析研究论文、书籍章节或技术报告，但希望避开上下文窗口崩溃问题或避免浅薄总结的学术研究人员、学生及数据分析师。

可通过本地文件路径或 WebSearch 与 WebFetch 工具自动获取学术论文。
利用 PyPDF2 实施严格的拆分协议，将文件转为四页一组的片段，并将其存储在专用的构建目录中，确保原始文件不受修改。
采用“暂停与确认”的交互模型，规定代理程序每次处理三个片段（约 12 页），以维持处理效率与理解的准确度。
进行结构化信息提取，针对研究问题、目标受众、方法论及关键贡献进行解析，并汇总至持续更新的 notes.md 文件中。
具备智能状态管理功能，在开始作业前会检查是否存在既有的笔记或已拆分的片段，从而节省时间和 token 成本。
使用时请务必提供明确的本地文件路径或精确的搜索查询（标题、作者、年份）。
本工具强调原始 PDF 的完整性，所有处理皆在临时的衍生拆分文件上进行，确保文件库的安全。
若系统检测到现有的摘录文件（basename_text.md），系统会询问是否直接使用该文件而非重新阅读。
工作流程严格遵循：获取文件、拆分、分批阅读、更新笔记，并在进入下一个 12 页区块前等待用户确认。
确保环境可使用 PyPDF2 进行拆分操作；若缺失，代理程序将会尝试自动安装。

创业课程

在线课程

实体课程

简介

仓库统计