研究
math-extractor
從文檔(PDF、MD、TEX、TXT)中提取數學定義、定理、證明等內容,並進行AI驅動的清洗與格式轉換。
簡介
Math Extractor 是一項專為研究人員、學生及學者設計的代理技能,旨在從複雜的文檔中隔離正式的數學結構。通過自動提取定義、定理、引理、命題和證明,該工具簡化了構建數學數據集、講義或參考資料庫的過程。它支持多種文件格式,包括 PDF、Markdown、LaTeX 和純文本,確保在提取過程中完整保留數學符號與邏輯結構。
-
利用 MinerU 技術進行高保真的 PDF 到 Markdown 轉換。
-
具備智能分段功能,可保持段落與數學公式的完整性。
-
AI 驅動的數據清洗,可自動移除圖像、目錄和冗長的參考文獻,大幅優化 Token 消耗。
-
內建數學符號保護機制,通過白名單過濾標籤,防止數學不等式與符號在處理過程中丟失。
-
自動編碼檢測,支持 UTF-8、GBK 和 Latin-1,確保對全球文檔格式的兼容性。
-
使用前需配置 API 金鑰(如 OpenAI 或 DeepSeek),PDF 轉換過程可選擇性配置 MinerU。
-
輸出結果為自動生成的 _extracted.md 文件,方便後續引用與編輯。
-
適用於批量處理大型技術論文或教材,將繁瑣的手動提取工作自動化。
-
內建 API 重試機制,可應對網絡不穩定導致的請求失敗,保證處理流程的穩定性。
-
最佳適用場景為結構清晰的正式數學文獻,能夠高效地將散亂內容轉化為結構化知識。
倉庫統計
- Star 數
- 0
- Fork 數
- 0
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午08:25