Word Document Handler
全方位的 Microsoft Word (.docx) 处理工具,支持文档创建、编辑、文本提取、跟踪修订及 XML 层级分析。
简介
Word Document Handler 是一种专门用于与 Microsoft Word (.docx) 文件进行专业级互动的技能。它结合了高阶抽象工具与底层 Office Open XML (OOXML) 操作,确保文件的结构完整性、格式保留以及精确的内容修改。此代理程序适用于需要自动化文档工作流程、执行大量文本分析,或管理涉及跟踪修订与嵌入媒体的复杂文档的用户。
-
使用 pandoc 将 .docx 文件精确提取为干净的 Markdown 格式,同时保留文档结构与跟踪修订。
-
通过 docx-js 库提供完整的创建功能,以生成具备特定 Paragraph、TextRun 和 Document 组件的专业文档。
-
针对现有文件提供进阶编辑工作流程,包含解压缩、原始 XML 操控以及自动化的文档重新封装。
-
使用自定义架构验证器进行强大的验证,确保在手动修改后 XML 仍符合 ISO-IEC 29500 标准。
-
内建处理跟踪修订(红线编辑)的支持,使用特定作者标签以维护文档审计轨迹。
-
利用 LibreOffice 与 Poppler 工具建立转换管道,将复杂的 .docx 文档转换为高分辨率的 PDF 或 JPEG 资产,以进行可视化审查与分析。
-
在执行文档创建或编辑任务前,请务必完整阅读提供的 docx-js.md 与 ooxml.md 文档,不得设定范围限制。
-
原始 XML 操作应聚焦于关键文件,如 word/document.xml、word/comments.xml 及媒体资产。
-
在进行 XML 修改后,务必立即使用提供的 validation.py 脚本验证文档,以防止损坏。
-
所有跟踪修订请务必使用指定的作者标签 w:author="Claude",以保持编辑记录的一致性。
-
将文档转换为图像时,请使用指定的分辨率(-r 150)或页面范围,以平衡文档质量与输出文件大小。
-
环境中必须预先安装相关依赖项,包括 pandoc、docx、LibreOffice 以及 poppler-utils。
仓库统计
- Star 数
- 11
- Fork 数
- 2
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 22:50