amazon-s3 - 从 AWS S3 到 MarkLogic 8 的 CSV 文件

Question

是否可以将 AWS S3 存储桶中的 csv 文件配置为直接进入 ML，或者文件是否需要放在某个地方，然后必须使用 MCLP 摄取 CSV 文件？

score 2 · Accepted Answer

假设您在 S3 存储桶中有 CSV 文件，并且 CSV 文件中的一行将作为单个 XML 记录插入……这在您的问题中并不清楚，但这是最常见的用例。如果您的计划只是将文件拉入并将它们保存为 CSV 文件，则可以使用未记录的 XQuery 函数来访问 S3 存储桶并将文件从中拉出。无论如何，MLCP 文档对于理解这个用途广泛且功能强大的工具非常有帮助。

根据文档（https://developer.marklogic.com/products/mlcp）支持的数据源是：

本地文件系统
高密度文件系统
MarkLogic 档案
另一个 MarkLogic 数据库

您可以将 S3 存储桶挂载到 EC2 上的本地文件系统，以绕过使文件可供 MLCP 访问的需要。如果这很重要，谷歌是你的朋友。我个人还没有看到生产稳定的方法，但我已经很长时间没有尝试过了。

无论如何，您需要在受支持的源上提供这些文件，在这种情况下很可能是文件系统位置，MLCP 可以在该位置运行并可以访问这些文件。我想这就是您将文件放在某处的意思。MLCP 可以在导入模式下处理分隔文件。该文档非常适合理解所有选项。

amazon-s3 - 从 AWS S3 到 MarkLogic 8 的 CSV 文件

1 回答 1

Related

Reference