-1

是否可以将 AWS S3 存储桶中的 csv 文件配置为直接进入 ML,或者文件是否需要放在某个地方,然后必须使用 MCLP 摄取 CSV 文件?

4

1 回答 1

2

假设您在 S3 存储桶中有 CSV 文件,并且 CSV 文件中的一行将作为单个 XML 记录插入……这在您的问题中并不清楚,但这是最常见的用例。如果您的计划只是将文件拉入并将它们保存为 CSV 文件,则可以使用未记录的 XQuery 函数来访问 S3 存储桶并将文件从中拉出。无论如何,MLCP 文档对于理解这个用途广泛且功能强大的工具非常有帮助。

根据文档(https://developer.marklogic.com/products/mlcp)支持的数据源是:

  • 本地文件系统
  • 高密度文件系统
  • MarkLogic 档案
  • 另一个 MarkLogic 数据库

您可以将 S3 存储桶挂载到 EC2 上的本地文件系统,以绕过使文件可供 MLCP 访问的需要。如果这很重要,谷歌是你的朋友。我个人还没有看到生产稳定的方法,但我已经很长时间没有尝试过了。

无论如何,您需要在受支持的源上提供这些文件,在这种情况下很可能是文件系统位置,MLCP 可以在该位置运行并可以访问这些文件。我想这就是您将文件放在某处的意思。MLCP 可以在导入模式下处理分隔文件。该文档非常适合理解所有选项。

于 2017-05-09T05:00:16.190 回答