研究
split-pdf avatar

split-pdf

自动化流程,用于下载、拆分并深度解析学术 PDF。通过分批处理技术确保阅读质量,避免因内容过长导致的脉络丢失与上下文窗口崩溃。

简介

split-pdf 是一款专为学术研究打造的工具,旨在解决大型语言模型处理长篇学术文档时的限制。通过将庞大的 PDF 自动拆解为易于管理的四页片段,本工具实现了一种迭代式深度阅读流程,能系统化地建立结构化阅读笔记。它特别适用于需要分析研究论文、书籍章节或技术报告,但希望避开上下文窗口崩溃问题或避免浅薄总结的学术研究人员、学生及数据分析师。

  • 可通过本地文件路径或 WebSearch 与 WebFetch 工具自动获取学术论文。

  • 利用 PyPDF2 实施严格的拆分协议,将文件转为四页一组的片段,并将其存储在专用的构建目录中,确保原始文件不受修改。

  • 采用“暂停与确认”的交互模型,规定代理程序每次处理三个片段(约 12 页),以维持处理效率与理解的准确度。

  • 进行结构化信息提取,针对研究问题、目标受众、方法论及关键贡献进行解析,并汇总至持续更新的 notes.md 文件中。

  • 具备智能状态管理功能,在开始作业前会检查是否存在既有的笔记或已拆分的片段,从而节省时间和 token 成本。

  • 使用时请务必提供明确的本地文件路径或精确的搜索查询(标题、作者、年份)。

  • 本工具强调原始 PDF 的完整性,所有处理皆在临时的衍生拆分文件上进行,确保文件库的安全。

  • 若系统检测到现有的摘录文件(basename_text.md),系统会询问是否直接使用该文件而非重新阅读。

  • 工作流程严格遵循:获取文件、拆分、分批阅读、更新笔记,并在进入下一个 12 页区块前等待用户确认。

  • 确保环境可使用 PyPDF2 进行拆分操作;若缺失,代理程序将会尝试自动安装。

仓库统计

Star 数
332
Fork 数
124
Open Issue 数
1
主要语言
TeX
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 05:23
在 GitHub 查看