我们正在尝试将 .docx(以及后来的其他潜在文件格式)转换为一种标准 XML。该 XML 将通过 XSLT 映射到我们选择的 XML (xsd)。
为了使转换成功,我们需要在文档中保留尽可能多的信息元素。最重要的是文档中的结构、内容、表格、列表和图形(图像等)。
我们已经意识到,获得一份这份工作很复杂的文件,并且我们可以支持什么样的文件有严格的限制。
由于存在不同的标准,因此为每个标准实施转换器将需要时间。
有没有人有一些将文档转换为 XML 的经验?关于如何进行的任何提示?
我们正在尝试将 .docx(以及后来的其他潜在文件格式)转换为一种标准 XML。该 XML 将通过 XSLT 映射到我们选择的 XML (xsd)。
为了使转换成功,我们需要在文档中保留尽可能多的信息元素。最重要的是文档中的结构、内容、表格、列表和图形(图像等)。
我们已经意识到,获得一份这份工作很复杂的文件,并且我们可以支持什么样的文件有严格的限制。
由于存在不同的标准,因此为每个标准实施转换器将需要时间。
有没有人有一些将文档转换为 XML 的经验?关于如何进行的任何提示?
您说得对,从 DOCX 转换为任意 XML 格式可能是一项艰巨的任务。
我们想要将 .docx 和其他可能的文件格式转换为标准 XML,可以通过 XSLT 将其转换为具有指定 XSD 的 XML。
DOCX 文件已经采用称为 Office Open XML (OOXML) 的标准 XML 格式。有关介绍,请参阅Office Open XML 概述。
我们知道这是一个复杂的领域。我们将支持什么样的文档会有限制,对我们来说最重要的是我们可以保持结构和内容。
鉴于 OOXML 面向格式化,根据您要识别的“结构和内容”,您可能需要解决一个非常具有挑战性的分类问题。知道确切的目标格式,这个问题就够难了;在一般情况下回答是不可行的。一种可以提供帮助的技术是对关键字、标题等进行基于模式的匹配,以识别源文档中目标格式的结构化程度更高的部分。