研究
split-pdf avatar

split-pdf

自動化流程,用於下載、拆分並深度解析學術 PDF。通過分批處理技術確保閱讀品質,避免因內容過長導致的脈絡遺失與上下文視窗崩潰。

簡介

split-pdf 是一款專為學術研究打造的工具,旨在解決大型語言模型處理長篇學術文件時的限制。透過將龐大的 PDF 自動拆解為易於管理的四頁片段,本工具實現了一種迭代式深度閱讀流程,能系統化地建立結構化閱讀筆記。它特別適用於需要分析研究論文、書籍章節或技術報告,但希望避開上下文視窗崩潰問題或避免淺薄總結的學術研究人員、學生及資料分析師。

  • 可透過本地檔案路徑或 WebSearch 與 WebFetch 工具自動獲取學術論文。

  • 利用 PyPDF2 實施嚴格的拆分協定,將文件轉為四頁一組的片段,並將其儲存在專用的構建目錄中,確保原始文件不受修改。

  • 採用「暫停與確認」的互動模型,規定代理程式每次處理三個片段(約 12 頁),以維持處理效率與理解的準確度。

  • 進行結構化資訊提取,針對研究問題、目標受眾、方法論及關鍵貢獻進行解析,並匯整至持續更新的 notes.md 檔案中。

  • 具備智慧狀態管理功能,在開始作業前會檢查是否存在既有的筆記或已拆分的片段,從而節省時間與 token 成本。

  • 使用時請務必提供明確的本地檔案路徑或精確的搜尋查詢(標題、作者、年份)。

  • 本工具強調原始 PDF 的完整性,所有處理皆在臨時的衍生拆分檔案上進行,確保文件庫的安全。

  • 若系統偵測到現有的摘錄檔案(basename_text.md),系統會詢問是否直接使用該檔案而非重新閱讀。

  • 工作流程嚴格遵循:取得文件、拆分、分批閱讀、更新筆記,並在進入下一個 12 頁區塊前等待用戶確認。

  • 確保環境可使用 PyPDF2 進行拆分操作;若缺失,代理程式將會嘗試自動安裝。

倉庫統計

Star 數
332
Fork 數
124
Open Issue 數
1
主要語言
TeX
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 上午05:23
在 GitHub 查看