elasticsearch - 使用 Flink Rich InputFormat 创建 Elasticsearch 的输入格式

Question

我们正在使用 Elasticsearch 6.8.4 和 Flink 1.0.18。

我们在 elasticsearch 中有一个包含 1 个分片和 1 个副本的索引，我想创建自定义输入格式以使用 apache Flink 数据集 API 在 elasticsearch 中读取和写入数据，并具有超过 1 个输入拆分，以实现更好的性能。那么有什么办法可以达到这个要求吗？

注意：每个文档的大小更大（几乎 8mb），由于大小限制，我一次只能读取 10 个文档，并且每个读取请求，我们想要检索 500k 条记录。

根据我的理解，并行度数应该等于数据源的分片/分区数。但是，由于我们只存储少量数据，因此我们将分片的数量保持为 1，并且我们有一个静态数据，它每月会略微增加。

任何帮助或源代码示例将不胜感激。

score 1 · Accepted Answer

您需要能够生成对 ES 的查询，从而有效地将源数据划分为相对相等的块。然后，您可以运行并行度 > 1 的输入源，并让每个子任务只读部分索引数据。

1 回答 1