我正在按照本指南将实时 Web 流量数据加载到 S3 中,配置 Lambda 以加载到 ES 域索引中。目前,对于每条记录,我在 S3 存储桶中创建一个新的 json 文件,命名为 {GUID}.json,仅包含一行。例如:
{"email":"example@test.com","firstname":"Hello","lastname":"World"}
因此,当它上线时,它将在 S3 存储桶中上传数百万个 json 文件,然后通过 Lambda 函数推送到 ES。这是加载流数据的正确方法吗?或者我应该开发一个预定的流程来每小时聚合多条记录,例如每个 json 文件 10k 条记录然后上传到 S3 存储桶?我觉得这在技术上不是“实时流媒体”。
有什么建议么?