0

我们正在使用 Elasticsearch 6.8.4 和 Flink 1.0.18。

我们在 elasticsearch 中有一个包含 1 个分片和 1 个副本的索引,我想创建自定义输入格式以使用 apache Flink 数据集 API 在 elasticsearch 中读取和写入数据,并具有超过 1 个输入拆分,以实现更好的性能。那么有什么办法可以达到这个要求吗?

注意:每个文档的大小更大(几乎 8mb),由于大小限制,我一次只能读取 10 个文档,并且每个读取请求,我们想要检索 500k 条记录。

根据我的理解,并行度数应该等于数据源的分片/分区数。但是,由于我们只存储少量数据,因此我们将分片的数量保持为 1,并且我们有一个静态数据,它每月会略微增加。

任何帮助或源代码示例将不胜感激。

4

1 回答 1

1

您需要能够生成对 ES 的查询,从而有效地将源数据划分为相对相等的块。然后,您可以运行并行度 > 1 的输入源,并让每个子任务只读部分索引数据。

于 2020-09-05T18:21:16.250 回答