我们正在使用 Elasticsearch 6.8.4 和 Flink 1.0.18。
我们在 elasticsearch 中有一个包含 1 个分片和 1 个副本的索引,我想创建自定义输入格式以使用 apache Flink 数据集 API 在 elasticsearch 中读取和写入数据,并具有超过 1 个输入拆分,以实现更好的性能。那么有什么办法可以达到这个要求吗?
注意:每个文档的大小更大(几乎 8mb),由于大小限制,我一次只能读取 10 个文档,并且每个读取请求,我们想要检索 500k 条记录。
根据我的理解,并行度数应该等于数据源的分片/分区数。但是,由于我们只存储少量数据,因此我们将分片的数量保持为 1,并且我们有一个静态数据,它每月会略微增加。
任何帮助或源代码示例将不胜感激。