希望你一切顺利。我们目前正在使用 Flink Table API (Flink Version-1.12.0) 从 Kafka 流式传输数据并将其存储在 Google Cloud Storage 中。我们用来存储数据的文件格式是 Parquet。最初,Flink 工作运行良好,我们能够流式传输数据并将其成功存储在 Google Cloud Storage 中。但是我们注意到,一旦我们增加了输入数据的基数并且增加了到 Kafka 的数据量,即每秒向 Kafka 流更多的事件,我们注意到 Flink 作业会抛出以下错误:
- 超过 GC 超限
- Java 堆内存空间不足 - 错误。
我们尝试使用 Kubernetes Cluster 和 flink 在 YARN 上运行 flink。在这两种情况下,随着数据量的增加,我们都看到了上述错误。我们为作业管理器提供了 2 个任务管理器,每个 10 GB 和 1 GB。我们的 flink 作业的检查点间隔是 3 分钟。我知道 Flink- https: //issues.apache.org/jira/browse/FLINK-20945 中存在一个错误。请让我知道,如果有办法解决这个问题。