apache-flink - 在 Google Cloud Storage 中使用 Flink Table API（Flink version-1.12.0）存储 parquet 文件时出现内存不足错误堆

翻译自：https://stackoverflow.com/questions/66808808 2021-03-25T23:07:17.810

47 次

希望你一切顺利。我们目前正在使用 Flink Table API (Flink Version-1.12.0) 从 Kafka 流式传输数据并将其存储在 Google Cloud Storage 中。我们用来存储数据的文件格式是 Parquet。最初，Flink 工作运行良好，我们能够流式传输数据并将其成功存储在 Google Cloud Storage 中。但是我们注意到，一旦我们增加了输入数据的基数并且增加了到 Kafka 的数据量，即每秒向 Kafka 流更多的事件，我们注意到 Flink 作业会抛出以下错误：

超过 GC 超限
Java 堆内存空间不足 - 错误。

我们尝试使用 Kubernetes Cluster 和 flink 在 YARN 上运行 flink。在这两种情况下，随着数据量的增加，我们都看到了上述错误。我们为作业管理器提供了 2 个任务管理器，每个 10 GB 和 1 GB。我们的 flink 作业的检查点间隔是 3 分钟。我知道 Flink- https: //issues.apache.org/jira/browse/FLINK-20945 中存在一个错误。请让我知道，如果有办法解决这个问题。

apache-flink - 在 Google Cloud Storage 中使用 Flink Table API（Flink version-1.12.0）存储 parquet 文件时出现内存不足错误堆

0 回答 0

Related

Reference