amazon-web-services - AWS Personalize：增量更新

Question

为了使 Personalize 正常运行，我们需要：

用户.csv
项目.csv
交互.csv

目标是导入历史（交互）数据，然后用实时事件对其进行更新。一切都很好，可以理解。

我们如何处理历史初始上传的交互.csv，以防有大量数据，一个巨大的 CSV。

理想情况下，我可以将这个怪物分成几块并将它们全部喂给 Personalize，这将是很好的。

我看到有一个关于增量上传的讨论，但我认为不可能。你们是怎么做的？

score 1 · Accepted Answer

您可以将批量数据拆分为多个 CSV，将 Personalize 导入作业指向包含 CSV 的 S3“文件夹”，然后 Personalize 将导入所有文件。

根据文档：

如果您的 CSV 文件位于 S3 存储桶中的文件夹中，并且您希望通过一个数据集导入作业将多个 CSV 文件上传到数据集，请使用此语法而不使用 CSV 文件名。

请务必将每种数据集类型的 CSV 拆分为存储桶中的单独“文件夹”。此外，从文件夹导入过程不是递归的，因此请将 CSV 直接放在文件夹中，而不是放在子文件夹中。

例如：

interactions/
interactions/file1.csv
interactions/file2.csv
interactions/file3.csv
items/
items/file1.csv
items/file2.csv
items/file3.csv
users/
users/file1.csv
users/file2.csv
users/file3.csv

然后导入所有交互 CSV，使用interactions/文件夹作为数据位置（例如，s3://bucket-name/interactions/）。

amazon-web-services - AWS Personalize：增量更新

1 回答 1

Related

Reference