为了使 Personalize 正常运行,我们需要:
- 用户.csv
- 项目.csv
- 交互.csv
目标是导入历史(交互)数据,然后用实时事件对其进行更新。一切都很好,可以理解。
我们如何处理历史初始上传的交互.csv,以防有大量数据,一个巨大的 CSV。
理想情况下,我可以将这个怪物分成几块并将它们全部喂给 Personalize,这将是很好的。
我看到有一个关于增量上传的讨论,但我认为不可能。你们是怎么做的?
为了使 Personalize 正常运行,我们需要:
目标是导入历史(交互)数据,然后用实时事件对其进行更新。一切都很好,可以理解。
我们如何处理历史初始上传的交互.csv,以防有大量数据,一个巨大的 CSV。
理想情况下,我可以将这个怪物分成几块并将它们全部喂给 Personalize,这将是很好的。
我看到有一个关于增量上传的讨论,但我认为不可能。你们是怎么做的?
您可以将批量数据拆分为多个 CSV,将 Personalize 导入作业指向包含 CSV 的 S3“文件夹”,然后 Personalize 将导入所有文件。
根据文档:
如果您的 CSV 文件位于 S3 存储桶中的文件夹中,并且您希望通过一个数据集导入作业将多个 CSV 文件上传到数据集,请使用此语法而不使用 CSV 文件名。
请务必将每种数据集类型的 CSV 拆分为存储桶中的单独“文件夹”。此外,从文件夹导入过程不是递归的,因此请将 CSV 直接放在文件夹中,而不是放在子文件夹中。
例如:
interactions/
interactions/file1.csv
interactions/file2.csv
interactions/file3.csv
items/
items/file1.csv
items/file2.csv
items/file3.csv
users/
users/file1.csv
users/file2.csv
users/file3.csv
然后导入所有交互 CSV,使用interactions/
文件夹作为数据位置(例如,s3://bucket-name/interactions/
)。