我正在使用 mlcp 从 CSV 将 JSON 文档加载到我的数据库中。我想为所有这些文件添加一个属性,然后能够根据属性值搜索文档。我怎样才能使用转换来做到这一点?使用 xdmp.documentAddProperties,我可以使用其 URI 将其应用于手动文档。
类似的查询,如何在摄取期间添加另一列?
我正在使用 mlcp 从 CSV 将 JSON 文档加载到我的数据库中。我想为所有这些文件添加一个属性,然后能够根据属性值搜索文档。我怎样才能使用转换来做到这一点?使用 xdmp.documentAddProperties,我可以使用其 URI 将其应用于手动文档。
类似的查询,如何在摄取期间添加另一列?
MLCP 转换没有内置功能来帮助解决这个问题,但您可以xdmp.documentAddProperties
在 MLCP 转换内部使用。这通常应该工作得很好。
但是,建议将元数据放在主文档中,主要是出于性能原因。我们为此使用的一个非常常见的模式(数据中心框架和实体服务也使用)是将整个文档包装在一个信封中,并为出处标题信息、规范模型实例、嵌入式三元组创建专用“部分” , 和附件。就像是:
{
envelope: {
header: {},
triples: {},
instance: {},
attachments: {}
}
}
它不是一个非常死板的模式,所以如果你觉得需要,你可以将它弯曲到你的需要,但上面已经成为一个非常普遍的模式。
总而言之,甚至可能值得考虑使用 Data Hub Framework 进行数据摄取,而不是直接使用 MLCP。您可以在此处找到有关此 DHF 的所有信息:
https://marklogic.github.io/marklogic-data-hub/
!