生产力
markdown-converter avatar

markdown-converter

使用 markitdown 将各种文档、媒体和网页内容转换为 Markdown,非常适合大语言模型处理和文本分析。

简介

markdown-converter 技能提供了一个强大的命令行界面,可将各种文件格式转换为结构清晰的 Markdown。通过利用 markitdown 库,它成为了复杂二进制或网络内容与大型语言模型 (LLM) 就绪文本之间的桥梁,从而实现无缝的数据分析和内容提取工作流程。该工具专为需要将多来源文档、研究资料或媒体转录内容导入其代理 (Agent) 或检索增强生成 (RAG) 管道的开发人员、数据分析师和 AI 高级用户所设计。

  • 将 PDF、Word (docx)、PowerPoint (pptx) 和 Excel (xlsx/xls) 等文档转换为 Markdown,同时保留文档结构、标题、表格和列表。

  • 从 HTML、CSV、JSON 和 XML 等网络格式中提取文本,便于解析。

  • 处理多媒体文件,例如通过 OCR 和 EXIF 数据提取来处理图像,以及通过集成转录服务来处理音频文件。

  • 支持通过 ZIP 压缩包进行批量处理、抓取 YouTube 网址,以及转换 EPub 电子书文件。

  • 提供高级提取选项,例如整合 Azure Document Intelligence 以处理复杂或质量较差的 PDF 文档。

  • 当您需要准备原始数据以供 LLM 分析或代理上下文窗口使用时,请使用此工具。

  • 处理标准输入 (stdin) 时,提供文件扩展名、MIME 类型或字符集等提示,以获得最佳解析结果。

  • 如需专业级的 PDF 提取,请利用选用的 -d 标志来启用高保真的 Azure Document Intelligence 处理。

  • 此工具旨在提升效率;首次运行会缓存依赖项,以确保后续转换能快速完成。

  • 输出结果保留结构完整性,使代理能更好地理解原始来源文件中表格和标题之间的关系。

  • 使用云端基础功能(如文档智能服务终端节点)时,请确保环境配置正确。

仓库统计

Star 数
253
Fork 数
22
Open Issue 数
3
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 08:01
在 GitHub 查看