1

MarkLogic 中是否有任何函数将输入作为excel文件并将其转换为XML文件。

我遇到了一个函数xdmp:excel-convert(),但这个函数正在生成.xhtml文件。并且不适用于.xlsx扩展名 excel 文件。

我正在使用 ML 版本 7

4

3 回答 3

3

如果您安装了内容处理框架和转换应用程序,您可以使用它将 .xls 格式的 Excel 上转换为简化的 docbook。如果您附加 Office OpenXML Extract 管道,它将处理解包并执行适度的清理到 .xslx 格式的 Excel。

于 2017-02-21T15:34:23.600 回答
1

除了 mholstege 的良好推荐之外,请注意 .xlsx 文件只是其中包含 XML 的 zip 文件。 这是一篇博文,提供了如何从 .docx 中提取 XML 文件的示例。

于 2017-02-21T15:53:14.640 回答
0

您可以使用xdmp:document-filter()来读取 XLSX 并生成 XHTML 输出。

我曾经xdmp:document-filter()快速/轻松地处理 XLXS 文件并将 XHTML 输出转换为多个 XML 文档,然后将它们插入 MarkLogic 数据库。

每一行都会产生一个 XHTML<p>元素(不要忘记它是绑定到命名空间的) ,除了一些包含文件信息的有用元素之外,还有http://www.w3.org/1999/xhtml一个逗号分隔的值节点表示每列数据。text()<meta>

例如一行三列: foobarbaz

会产生:

<p>foo,bar,baz</p>

您可以选择有意义的数据行,然后对 CSV 值进行标记,以便为<p>元素中的每一行数据生成列。

您可能需要过滤我们<p>为工作表选项卡生成的一些内容:

<p>Sheet1</p>

以及不包含任何值并仅生成逗号序列的行:

<p>,,,</p>
于 2017-02-22T03:42:24.610 回答