我想将 MS Office word/excel 文档加载到 Marklogic 中,并希望使用 xquery 查询它们,就像使用 xml 文档一样。但是,当我将 doc 文件加载到 Marklogic 中时,它会将它们加载为二进制格式,并在使用查询控制台查看时显示垃圾字符。我尝试使用以下命令加载:-
xdmp:document-load("E:\doc\sample.doc",
<options xmlns="xdmp:document-load"
xmlns:http="xdmp:http">
<format>xml</format>
</options>)
但它显示一个错误,说明文档不是 UTF 8 编码的。我想知道 doc 和 xls 文件是否可以按原样加载到 Marklogic 中,或者在加载它们之前必须将它们转换为 xml 或 UTF 8 编码格式。如果是,那么转换它们的过程是什么。如果不是,那么我们如何使用 xquery 查询它们。我还想知道转换过程是否需要安装 MS Office 2007/2010,因为 Office 2007 和 2010 都支持 OOXML 格式。
请给我适当的指导。