问题标签 [mlcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
84 浏览

marklogic - 通过 MLCP 摄取存储在 Archive 中的 XML

使用以下命令通过 MLCP 导入存储在存档中的 XML 文档时:

我收到以下错误:

我正在使用 MarkLogic 8.0-7.1。

有谁知道这个错误?

0 投票
2 回答
106 浏览

marklogic - MarkLogic MLCP:是否可以将特定模块数据库设置为命令行选项

我正在通过端口 8000(查询控制台)执行 MLCP 加载。我可以使用选项 -database 设置要加载的内容数据库。但我也想执行转换。问题是当我执行转换时,MLCP 正在查找与查询控制台关联的模块数据库,而不是与我的内容数据库关联的模块数据库。我可以调用 MLCP 中的命令选项来为我的转换指定不同的模块数据库吗?

谢谢,--丹

0 投票
1 回答
85 浏览

marklogic - 摄取时将输入文件名传递到 MLCP 转换模块

我有一组分隔文本文件存储在本地文件系统的目录中。我想使用 mlcp 将所有这些分隔的文本文件摄取到 marklogic 中。

在摄取时,我正在对输入内容进行一些转换,以在每个摄取的文档中创建一个新字段,其值将是其源文件名。这样做的目的是根据不同的文件源对摄取的文档进行分类。为此,我想将输入文件名传递给转换模块。

有什么办法可以做到这一点吗?

0 投票
1 回答
277 浏览

marklogic - MLCP 内容转换和触发器可以在文档摄取期间一起使用吗?

据我了解,MLCP 转换和触发器都可用于修改摄取的文档。不同之处在于内容转换在摄取期间对内存中的文档对象进行操作,而触发器可以在创建文档后触发。

所以在我看来,我没有理由不能同时使用它们。我的用例是在将文档提取到数据库后,我需要更新文档的某些节点。我使用触发器的原因是因为在使用in-mem-update模块的 MLCP 转换中运行相同的逻辑总是导致摄取失败,大概是由于文件大小过大和我尝试更新的节点数量过多。

2018-08-22 23:02:24 错误 TransformWriter:546 - 异常:解析 HTTP 标头时出错:连接尝试失败,因为连接方在一段时间后没有正确响应,或者建立连接失败,因为连接的主机无法连接回应

到目前为止,我还不能将内容转换和触发器结合起来。当我在 MLCP 摄取期间启用转换时,触发器未触发。当我禁用转换时,触发器没有问题。

我不能同时使用它们有什么内在原因吗?还是与我的配置有关的问题?谢谢!

编辑:

我想根据@ElijahBernstein-Cooper、@MadsHansen 和@grtjn(谢谢!)的建议,提供一些澄清和报告结果的背景。我正在使用 MarkLogic 数据中心框架将 PDF 文件(有些非常大)作为二进制文件提取,并将文本提取为 XML。我基本上遵循了这个例子,除了我使用xdmp:pdf-convert的是xdmp:document-filterhttps ://github.com/marklogic/marklogic-data-hub/blob/master/examples/load-binaries/plugins/entities/Guides/input/LoadAsXml/内容/内容.xqy

虽然xdmp:pdf-convert似乎比 更好地保留了 PDF 结构xdmp:document-filter,但它还包括一些我不需要的样式节点 ( <link>and <style>) 和属性 ( classand )。style在尝试删除它们时,我探索了两种不同的方法:

  1. 第一种方法是使用该in-mem-update模块从上述content.xqy脚本中的内存文档表示中删除不需要的节点,作为内容转换流程的一部分。问题是这个过程可能很慢,正如@grtjn 指出的那样,我必须限制并行化以避免超时。
  2. 第二种方法是使用提交后触发器功能在文档xdmp:node-delete被提取到数据库后使用它们来修改它们。但是,当触发条件设置为 时,触发器不会触发document-content("create")。如果我将条件更改为,它确实会触发document-content("modify"),但由于某种原因,我无法使用fn:document($trgr:uri)类似于此 SO 问题的方式访问文档(MarkLogic 9 sjs 触发器无法访问 post-commit() 文档数据)。
0 投票
2 回答
96 浏览

marklogic - 具有数据流的 MLCP

不确定这个问题是否有效......

要求- 我将编写一个从外部 REST 端点捕获大量数据的应用程序,我想使用 MLCP 将来自外部 REST 端点的数据流存储到 MarkLogic。

可以使用 MLCP 吗?

请给出你的解决方案。

0 投票
1 回答
22 浏览

marklogic - Marklogic 9 MLCP 从 URL 摄取不起作用

我正在使用 Marklogic 9 并希望从网站 (url) 中提取数据,该网站会为我提供一个 JSON 字符串作为结果。

我使用以下语句尝试使用 MarkLogic 内容泵 (MLCP):

执行“MLCP”语句后,我收到以下消息:

当我使用查询控制台检查时,文档没有显示新记录。

你能告诉我必须改变什么才能让它工作吗

非常感谢

埃里克

0 投票
1 回答
169 浏览

gradle - 带有自定义转换模块的 MLCP 导入

无法使用自定义转换模块选项导入文档。

我正在尝试通过 mlcp 作为 SSL 上的 gradle 任务导入。当我尝试运行任务时,它正在成功构建但没有导入任何模块。

代码:

}

任务运行成功,但未执行任何导入。
MarkLogic - 8.0.6-6
Gradle - 3.9.0
mlcp - 9.0.5

0 投票
0 回答
140 浏览

marklogic - 错误 mapreduce.ContentWriter: XDMP-NOTXN: 没有标识符为 1796851315598328505 MLCP 的事务

使用 mlcp 时出现错误。我在负载均衡器中使用 mlcp,所以我只有一个 ip,后面是我有 8 个节点。

但是,如果我只是将它连接到一个节点,则摄取成功。请帮忙...

连接到 mklogic-ed03 18/12/13 08:05:40 错误 mapreduce.ContentWriter: XDMP-NOTXN: No transaction with identifier 1796851315598328505

0 投票
1 回答
101 浏览

marklogic - 在 LOAD BALANCER MLCP、MARKLOGIC 中摄取失败

我在负载平衡中使用 mlcp,设置是我有 8 个节点由一个 ip 负载平衡,mlcp 连接到该 ip。我在摄取过程中杀死了一个节点,但是 mlcp 停止并等待连接,然后一些文档没有被摄取,我这样做是因为我想执行 marklogic 集群的故障转移测试。

如何在不丢失流程数据的情况下获得 100%。

0 投票
1 回答
108 浏览

marklogic - How to remove a column from a csv file while loading a file?

I want to remove the particular column from the csv file and load it into database using mlcp.

My csv file contains:

I want to use that URI column as the uri for the document and also that uri column should be skipped/removed in the inserted document.

How to do it??