0

我正在按照本指南将实时 Web 流量数据加载到 S3 中,配置 Lambda 以加载到 ES 域索引中。目前,对于每条记录,我在 S3 存储桶中创建一个新的 json 文件,命名为 {GUID}.json,仅包含一行。例如:

{"email":"example@test.com","firstname":"Hello","lastname":"World"}

因此,当它上线时,它将在 S3 存储桶中上传数百万个 json 文件,然后通过 Lambda 函数推送到 ES。这是加载流数据的正确方法吗?或者我应该开发一个预定的流程来每小时聚合多条记录,例如每个 json 文件 10k 条记录然后上传到 S3 存储桶?我觉得这在技术上不是“实时流媒体”。

有什么建议么?

4

1 回答 1

1

您是否尝试过使用 AWS Kinesis Firehose 将流数据加载到 ElasticSearch?

参考:https ://aws.amazon.com/kinesis/firehose/firehose-to-elasticsearch-service/

这将消除您的大部分努力。

于 2016-11-14T16:15:16.280 回答