生產力
markitdown avatar

markitdown

將 PDF、Office 文件、圖片、音訊及網頁內容轉換為適合 LLM 與 RAG 系統的乾淨 Markdown 格式,支援 20 多種檔案類型與自動化處理。

簡介

MarkItDown 是一款多功能工具,旨在填補非結構化文件格式與適用於 LLM 的文字資料之間的鴻溝。它主要供開發人員與資料科學家使用,協助構建 RAG(檢索增強生成)系統、自動化文件流水線或智慧搜尋引擎。透過將多樣化的輸入轉化為乾淨、符號(token)效率高的 Markdown,確保 AI 代理程式在處理複雜文件時能保持標題、表格與超連結等關鍵結構。

  • 多格式支援:高保真處理 DOCX、XLSX、PPTX、PDF、HTML、EPUB、CSV、JSON 與 XML 檔案。

  • 進階媒體提取:透過強大的後端整合,對影像執行 OCR 文字辨識,並將音訊檔案轉錄為文字。

  • 網頁與串流內容:直接透過 URL 提取網頁、RSS 動態與 YouTube 影片字幕內容。

  • 智慧增強:針對複雜 PDF 可選擇整合 Azure Document Intelligence,或與 OpenAI GPT-4o 模型協作以產生語意化的圖片描述。

  • 批次與自動化:支援目錄等級的批次轉換,或在單次操作中處理 ZIP 壓縮檔,適合大規模資料輸入。

  • 外掛架構:具備可擴充的外掛系統,可自訂轉換邏輯,並可在安全受控的環境下進行設定。

  • 此工具最適用於預處理流水線;在將文件傳送至向量資料庫之前執行轉換,可顯著提升檢索準確度。

  • 對於大量 PDF 文件,建議整合 Azure Document Intelligence 以優化表格提取與版面保存。

  • 提供模組化安裝;可依需求安裝特定子套件(如 'markitdown[pdf]' 或 'markitdown[audio]'),以保持開發環境的精簡。

  • 限制:需要 Python 3.10 或更高版本。部分功能(如音訊轉錄或 AI 驅動的影像描述)可能需要特定的外部依賴套件或 API 金鑰。

  • 常見應用案例包括:將舊有的文件庫轉換為 Markdown 以建立 AI 知識庫、透過 OCR 從掃描的發票中提取資料,或為長篇 YouTube 教學影片進行摘要分析。

倉庫統計

Star 數
241
Fork 數
36
Open Issue 數
6
主要語言
Go
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 上午05:45
在 GitHub 查看