0

为了使 Personalize 正常运行,我们需要:

  • 用户.csv
  • 项目.csv
  • 交互.csv

目标是导入历史(交互)数据,然后用实时事件对其进行更新。一切都很好,可以理解。

我们如何处理历史初始上传的交互.csv,以防有大量数据,一个巨大的 CSV。

理想情况下,我可以将这个怪物分成几块并将它们全部喂给 Personalize,这将是很好的。

我看到有一个关于增量上传的讨论,但我认为不可能。你们是怎么做的?

4

1 回答 1

1

您可以将批量数据拆分为多个 CSV,将 Personalize 导入作业指向包含 CSV 的 S3“文件夹”,然后 Personalize 将导入所有文件。

根据文档

如果您的 CSV 文件位于 S3 存储桶中的文件夹中,并且您希望通过一个数据集导入作业将多个 CSV 文件上传到数据集,请使用此语法而不使用 CSV 文件名。

请务必将每种数据集类型的 CSV 拆分为存储桶中的单独“文件夹”。此外,从文件夹导入过程不是递归的,因此请将 CSV 直接放在文件夹中,而不是放在子文件夹中。

例如:

interactions/
interactions/file1.csv
interactions/file2.csv
interactions/file3.csv
items/
items/file1.csv
items/file2.csv
items/file3.csv
users/
users/file1.csv
users/file2.csv
users/file3.csv

然后导入所有交互 CSV,使用interactions/文件夹作为数据位置(例如,s3://bucket-name/interactions/)。

于 2021-08-21T00:14:24.677 回答