2

我想使用 MLCP 将一些 RAW 数据转换为 marklogic,但数据的形式如下

Informatio#data1      #data2#data3#data4     #data5   
Informatio#data10      #data6#data7#data8     #data9  

使用 MLCP 将此数据发送到 ML 9 的挑战是

  • 首先第一行没有列名,通常在使用 mlcp 时,第一行成为下面各个列的列名。除了在第一行中包含列名之外,还有什么方法可以将它们传递给 marklogic。
  • 其次,由于第一列是相同的值。生成 URI 时,将采用第一个列名,因此摄取到 ML 中的数据被覆盖。在我的 csv 文件中没有唯一的列值,所以我不知道如何为文档生成唯一的 URI。

任何帮助表示赞赏

谢谢

4

1 回答 1

3
  1. MLCP 命令要求分隔文本文件以标题行开头。使用您最喜欢的脚本语言将其添加为预处理的一部分。
  2. 命令行开关-delimited_uri_id可以更改为用于 ID 生成的另一列。

其他可能有用的有趣想法:

  • 让 MarkLogic 创建唯一 ID(另一个命令行开关)
  • 使用输入转换来生成更具体的 URI - 可能来自复合键。

供参考:https ://docs.marklogic.com/6.0/guide/ingestion/content-pump#id_70366

于 2017-12-29T08:34:23.313 回答