split-pdf

簡介

split-pdf 是一款專為學術研究打造的工具，旨在解決大型語言模型處理長篇學術文件時的限制。透過將龐大的 PDF 自動拆解為易於管理的四頁片段，本工具實現了一種迭代式深度閱讀流程，能系統化地建立結構化閱讀筆記。它特別適用於需要分析研究論文、書籍章節或技術報告，但希望避開上下文視窗崩潰問題或避免淺薄總結的學術研究人員、學生及資料分析師。

可透過本地檔案路徑或 WebSearch 與 WebFetch 工具自動獲取學術論文。
利用 PyPDF2 實施嚴格的拆分協定，將文件轉為四頁一組的片段，並將其儲存在專用的構建目錄中，確保原始文件不受修改。
採用「暫停與確認」的互動模型，規定代理程式每次處理三個片段（約 12 頁），以維持處理效率與理解的準確度。
進行結構化資訊提取，針對研究問題、目標受眾、方法論及關鍵貢獻進行解析，並匯整至持續更新的 notes.md 檔案中。
具備智慧狀態管理功能，在開始作業前會檢查是否存在既有的筆記或已拆分的片段，從而節省時間與 token 成本。
使用時請務必提供明確的本地檔案路徑或精確的搜尋查詢（標題、作者、年份）。
本工具強調原始 PDF 的完整性，所有處理皆在臨時的衍生拆分檔案上進行，確保文件庫的安全。
若系統偵測到現有的摘錄檔案（basename_text.md），系統會詢問是否直接使用該檔案而非重新閱讀。
工作流程嚴格遵循：取得文件、拆分、分批閱讀、更新筆記，並在進入下一個 12 頁區塊前等待用戶確認。
確保環境可使用 PyPDF2 進行拆分操作；若缺失，代理程式將會嘗試自動安裝。

創業課程

網上課程

實體課程

簡介

倉庫統計