研究
split-pdf
自動化流程,用於下載、拆分並深度解析學術 PDF。通過分批處理技術確保閱讀品質,避免因內容過長導致的脈絡遺失與上下文視窗崩潰。
簡介
split-pdf 是一款專為學術研究打造的工具,旨在解決大型語言模型處理長篇學術文件時的限制。透過將龐大的 PDF 自動拆解為易於管理的四頁片段,本工具實現了一種迭代式深度閱讀流程,能系統化地建立結構化閱讀筆記。它特別適用於需要分析研究論文、書籍章節或技術報告,但希望避開上下文視窗崩潰問題或避免淺薄總結的學術研究人員、學生及資料分析師。
-
可透過本地檔案路徑或 WebSearch 與 WebFetch 工具自動獲取學術論文。
-
利用 PyPDF2 實施嚴格的拆分協定,將文件轉為四頁一組的片段,並將其儲存在專用的構建目錄中,確保原始文件不受修改。
-
採用「暫停與確認」的互動模型,規定代理程式每次處理三個片段(約 12 頁),以維持處理效率與理解的準確度。
-
進行結構化資訊提取,針對研究問題、目標受眾、方法論及關鍵貢獻進行解析,並匯整至持續更新的 notes.md 檔案中。
-
具備智慧狀態管理功能,在開始作業前會檢查是否存在既有的筆記或已拆分的片段,從而節省時間與 token 成本。
-
使用時請務必提供明確的本地檔案路徑或精確的搜尋查詢(標題、作者、年份)。
-
本工具強調原始 PDF 的完整性,所有處理皆在臨時的衍生拆分檔案上進行,確保文件庫的安全。
-
若系統偵測到現有的摘錄檔案(basename_text.md),系統會詢問是否直接使用該檔案而非重新閱讀。
-
工作流程嚴格遵循:取得文件、拆分、分批閱讀、更新筆記,並在進入下一個 12 頁區塊前等待用戶確認。
-
確保環境可使用 PyPDF2 進行拆分操作;若缺失,代理程式將會嘗試自動安裝。
倉庫統計
- Star 數
- 332
- Fork 數
- 124
- Open Issue 數
- 1
- 主要語言
- TeX
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 上午05:23