15

考虑一个需要在 R 中处理没有页眉和页脚的 docx 文档文本的用户。

如果将 file.docx 重命名为 file.zip 并分析文档 document.xml - 它是带有文本的格式良好的 XML 文档。

Microsfot(或其他开发人员)是否在 docx 文件的 ZIP 包中发布了此 document.xml 子文件的架构?

该文件如下所示:

    <?xml version="1.0" encoding="UTF-8" standalone="yes" ?> 
- <w:document xmlns:wpc="http://schemas.microsoft.com/office/word/2010/wordprocessingCanvas" xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:m="http://schemas.openxmlformats.org/officeDocument/2006/math" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:wp14="http://schemas.microsoft.com/office/word/2010/wordprocessingDrawing" xmlns:wp="http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main" xmlns:w14="http://schemas.microsoft.com/office/word/2010/wordml" xmlns:wpg="http://schemas.microsoft.com/office/word/2010/wordprocessingGroup" xmlns:wpi="http://schemas.microsoft.com/office/word/2010/wordprocessingInk" xmlns:wne="http://schemas.microsoft.com/office/word/2006/wordml" xmlns:wps="http://schemas.microsoft.com/office/word/2010/wordprocessingShape" mc:Ignorable="w14 wp14">
- <w:body>
- <w:p w:rsidR="00F447D7" w:rsidRPr="00C63308" w:rsidRDefault="00F447D7">
- <w:pPr>
4

2 回答 2

14

来自维基百科

该格式最初由 Ecma(如 ECMA-376)标准化,在后来的版本中,由 ISO 和 IEC(如 ISO/IEC 29500)标准化。

您可以在ECMA-376 下载中找到各种版本的 XSD

document.xml 符合模式的 WordprocessingML 部分(查找 wml.xsd)。

于 2013-09-08T08:19:03.210 回答
1

我认为这可能是位置: http: //msdn.microsoft.com/en-us/library/hh643329 (v=office.12).aspx

这是 5.2 版。在此页面上,您可以找到 5.1 版的链接。

于 2013-09-06T14:55:29.910 回答