生产力
Word Document Handler avatar

Word Document Handler

全方位的 Microsoft Word (.docx) 处理工具,支持文档创建、编辑、文本提取、跟踪修订及 XML 层级分析。

简介

Word Document Handler 是一种专门用于与 Microsoft Word (.docx) 文件进行专业级互动的技能。它结合了高阶抽象工具与底层 Office Open XML (OOXML) 操作,确保文件的结构完整性、格式保留以及精确的内容修改。此代理程序适用于需要自动化文档工作流程、执行大量文本分析,或管理涉及跟踪修订与嵌入媒体的复杂文档的用户。

  • 使用 pandoc 将 .docx 文件精确提取为干净的 Markdown 格式,同时保留文档结构与跟踪修订。

  • 通过 docx-js 库提供完整的创建功能,以生成具备特定 Paragraph、TextRun 和 Document 组件的专业文档。

  • 针对现有文件提供进阶编辑工作流程,包含解压缩、原始 XML 操控以及自动化的文档重新封装。

  • 使用自定义架构验证器进行强大的验证,确保在手动修改后 XML 仍符合 ISO-IEC 29500 标准。

  • 内建处理跟踪修订(红线编辑)的支持,使用特定作者标签以维护文档审计轨迹。

  • 利用 LibreOffice 与 Poppler 工具建立转换管道,将复杂的 .docx 文档转换为高分辨率的 PDF 或 JPEG 资产,以进行可视化审查与分析。

  • 在执行文档创建或编辑任务前,请务必完整阅读提供的 docx-js.md 与 ooxml.md 文档,不得设定范围限制。

  • 原始 XML 操作应聚焦于关键文件,如 word/document.xml、word/comments.xml 及媒体资产。

  • 在进行 XML 修改后,务必立即使用提供的 validation.py 脚本验证文档,以防止损坏。

  • 所有跟踪修订请务必使用指定的作者标签 w:author="Claude",以保持编辑记录的一致性。

  • 将文档转换为图像时,请使用指定的分辨率(-r 150)或页面范围,以平衡文档质量与输出文件大小。

  • 环境中必须预先安装相关依赖项,包括 pandoc、docx、LibreOffice 以及 poppler-utils。

仓库统计

Star 数
11
Fork 数
2
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 22:50
在 GitHub 查看