研究
math-extractor avatar

math-extractor

從文檔(PDF、MD、TEX、TXT)中提取數學定義、定理、證明等內容,並進行AI驅動的清洗與格式轉換。

簡介

Math Extractor 是一項專為研究人員、學生及學者設計的代理技能,旨在從複雜的文檔中隔離正式的數學結構。通過自動提取定義、定理、引理、命題和證明,該工具簡化了構建數學數據集、講義或參考資料庫的過程。它支持多種文件格式,包括 PDF、Markdown、LaTeX 和純文本,確保在提取過程中完整保留數學符號與邏輯結構。

  • 利用 MinerU 技術進行高保真的 PDF 到 Markdown 轉換。

  • 具備智能分段功能,可保持段落與數學公式的完整性。

  • AI 驅動的數據清洗,可自動移除圖像、目錄和冗長的參考文獻,大幅優化 Token 消耗。

  • 內建數學符號保護機制,通過白名單過濾標籤,防止數學不等式與符號在處理過程中丟失。

  • 自動編碼檢測,支持 UTF-8、GBK 和 Latin-1,確保對全球文檔格式的兼容性。

  • 使用前需配置 API 金鑰(如 OpenAI 或 DeepSeek),PDF 轉換過程可選擇性配置 MinerU。

  • 輸出結果為自動生成的 _extracted.md 文件,方便後續引用與編輯。

  • 適用於批量處理大型技術論文或教材,將繁瑣的手動提取工作自動化。

  • 內建 API 重試機制,可應對網絡不穩定導致的請求失敗,保證處理流程的穩定性。

  • 最佳適用場景為結構清晰的正式數學文獻,能夠高效地將散亂內容轉化為結構化知識。

倉庫統計

Star 數
0
Fork 數
0
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午08:25
在 GitHub 查看