4

在独立 Spark 集群上部署我的 Spark Streaming 作业后,我遇到了一些检查点问题。控制台日志产生一个提示:

WARN ReliableCheckpointRDD: Error writing partitioner org.apache.spark.HashPartitioner@2 to hdfs://10.254.25.21:8020/path/1914a5db-96be-4634-b2ce-ee867119fd95/rdd-18129

我正在使用默认的 HashPartitioner 将数据划分为两个分区。我将我的 HDFS 检查点目录设置为我的 Spark 主服务器和 HDFS 端口,如下所示:

ssc.checkpoint("hdfs://10.254.25.21:8020/path")

在我的工作中,我自己从不手动调用.checkpoint(duration)任何 DStream。但是我从PairDStreams mapWithState()调用中得到了许多有状态的流。捕获异常的代码可以在ReliableCheckpointRDD 行 209ff中找到。不幸的是,我在网上找不到有关此错误的任何参考。

在我的工作中,每当触发检查点时,每个有状态的 DStream 都会引发异常。

任何帮助表示赞赏!

编辑#1

这不影响结果的正确性。然而,我想知道在我进行一些性能分析时性能是否会变得更糟。

4

0 回答 0