0

MarkLogic 不“处理”EPUB。公积金没有。MLCP 没有。

EPUB 是一个 zip,主要包含 xhtml、xml 和图片。我可以将它重命名为 .zip 并使用 MLCP 加载它。但是重命名不是很好,除非我在 URI 创建等中添加替换,否则它将显示在 URI 中。

此外,该.opf文件包含有用的信息,它是 XML,但读取为二进制。我可以将 .OPF 添加到 MIME 类型,但这不能与使用 MLCP 从存档加载相结合,然后它仍会再次显示为二进制。

我不想在数据加载到 ML 之前添加一个额外的层来“准备”数据。而且我想尽可能地保持信息的可读性/可索引性。

有没有比这更好的方法;重命名、解包和模拟输入以将 EPUB 文件加载到 MarkLogic 中?

4

2 回答 2

3

我想我个人会使用 MLCP 变换。您知道它是压缩数据,因此您可以安全地将xdmp:zip-manifest自己应用到转换中。您可以在转换中发出多个 map:map 对象,并为 epub zip 中的每个部分提供 uri/value。您可以使用选项来告诉xdmp:zip-get读取具有特定格式的特定文件。

于 2016-09-13T07:44:47.420 回答
1

您希望将 .opf 文件作为单个文档加载到数据库中,还是希望 mlcp 为您解压缩并将包含的 XHTML、XML 和图像文件作为单个文档插入到数据库中?

如果是后者,您也许可以通过使用 -input_compression_codec 选项来实现它(无需重命名源文件)。请参阅文档中的此主题:

http://docs.marklogic.com/guide/mlcp/import#id_13251

于 2016-09-14T04:19:22.527 回答