Word Document Handler
全方位的 Microsoft Word (.docx) 處理工具,支援文件建立、編輯、文字提取、追蹤修訂及 XML 層級分析。
簡介
Word Document Handler 是一種專門用於與 Microsoft Word (.docx) 文件進行專業級互動的技能。它結合了高階抽象工具與底層 Office Open XML (OOXML) 操作,確保文件的結構完整性、格式保留以及精確的內容修改。此代理程式適用於需要自動化文件工作流程、執行大量文字分析,或管理涉及追蹤修訂與嵌入媒體之複雜文件的使用者。
-
使用 pandoc 將 .docx 檔案精確提取為乾淨的 Markdown 格式,同時保留文件結構與追蹤修訂。
-
透過 docx-js 函式庫提供完整的建立功能,以生成具備特定 Paragraph、TextRun 和 Document 元件的專業文件。
-
針對現有檔案提供進階編輯工作流程,包含解壓縮、原始 XML 操控以及自動化的文件重新封裝。
-
使用自定義架構驗證器進行強大的驗證,確保在手動修改後 XML 仍符合 ISO-IEC 29500 標準。
-
內建處理追蹤修訂(紅線編輯)的支援,使用特定作者標籤以維護文件稽核軌跡。
-
利用 LibreOffice 與 Poppler 工具建立轉換管道,將複雜的 .docx 文件轉換為高解析度的 PDF 或 JPEG 資產,以進行視覺化審查與分析。
-
在執行文件建立或編輯任務前,請務必完整閱讀提供的 docx-js.md 與 ooxml.md 文件,不得設定範圍限制。
-
原始 XML 操作應聚焦於關鍵檔案,如 word/document.xml、word/comments.xml 及媒體資產。
-
在進行 XML 修改後,務必立即使用提供的 validation.py 指令碼驗證文件,以防止損毀。
-
所有追蹤修訂請務必使用指定的作者標籤 w:author="Claude",以保持編輯紀錄的一致性。
-
將文件轉換為影像時,請使用指定的解析度(-r 150)或頁面範圍,以平衡文件品質與輸出檔案大小。
-
環境中必須預先安裝相關依賴項,包括 pandoc、docx、LibreOffice 以及 poppler-utils。
倉庫統計
- Star 數
- 11
- Fork 數
- 2
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午10:50