研究
math-extractor avatar

math-extractor

从文档(PDF、MD、TEX、TXT)中提取数学定义、定理、证明等内容,并进行AI驱动的清洗与格式转换。

简介

Math Extractor 是一项专为研究人员、学生及学者设计的代理技能,旨在从复杂的文档中隔离正式的数学结构。通过自动提取定义、定理、引理、命题和证明,该工具简化了构建数学数据集、讲义或参考资料库的过程。它支持多种文件格式,包括 PDF、Markdown、LaTeX 和纯文本,确保在提取过程中完整保留数学符号与逻辑结构。

  • 利用 MinerU 技术进行高保真的 PDF 到 Markdown 转换。

  • 具备智能分段功能,可保持段落与数学公式的完整性。

  • AI 驱动的数据清洗,可自动移除图像、目录和冗长的参考列表,大幅优化 Token 消耗。

  • 内建数学符号保护机制,通过白名单过滤标签,防止数学不等式与符号在处理过程中丢失。

  • 自动编码检测,支持 UTF-8、GBK 和 Latin-1,确保对全球文档格式的兼容性。

  • 使用前需配置 API 密钥(如 OpenAI 或 DeepSeek),PDF 转换过程可选择性配置 MinerU。

  • 输出结果为自动生成的 _extracted.md 文件,方便后续引用与编辑。

  • 适用于批量处理大型技术论文或教材,将繁琐的手动提取工作自动化。

  • 内建 API 重试机制,可应对网络不稳定导致的请求失败,保证处理流程的稳定性。

  • 最佳适用场景为结构清晰的正式数学文献,能够高效地将散乱内容转化为结构化知识。

仓库统计

Star 数
0
Fork 数
0
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 20:25
在 GitHub 查看