0

I have a word 2007 .docx document. I have created its zip file by adding the extention ".zip" at the end. When I extract the zip file it gave me few folders with xml files in it. I want to get a single xml sheet by combining all the xml files that are there in the folders, in order to write a xsl style sheet for that. I do not want to open the ".docx" file and try "save as xml". Is there a way to do that? Or can I atleast have the WordML file of that document? If so how. Thank you in advance.

4

1 回答 1

0

使用您选择的支持解压缩、目录树遍历和基于行的文本文件处理的工具(集)。首先解压缩您的word文件,保留存档的目录结构。接下来在您解压缩到的目录上启动您的目录步行器,处理所有.xml文件.rels;从每个文件中删除第一行(包含 xml 声明,例如<?xml version="1.0" encoding="UTF-8" standalone="yes"?>),然后将每个文件依次连接到您的全局输出 xml 文件,该文件的第一行应包含一个 xml 声明本身。确保您的工具尊重 xml 文件的字符集编码(应该是 utf-8)。

PerlFile::FindArchive::Zip可以方便地完成这项任务,但您可以使用标准 cli 工具(zip/unzip、find、cat、sed)完成工作。

您可能必须使用一些综合区分属性来补充文件的顶级Relationships元素.rels以避免 id 冲突 - 大多数关系条目的适用性应该是唯一的给定Type属性,但 ms 规范对于 office 本身是否保证唯一的 id 似乎有点模糊同类型的关系项目(或者我没有仔细阅读规格......)。请注意,相关的非 xml 文件(图形、vba 代码)的名称显示在[Content_Types].xml和关系文件中。

希望(仍然)有帮助,问候,carsten

于 2012-10-09T10:06:53.130 回答