7

火花检查点和本地检查点有什么区别?在创建本地检查点时,我在 spark UI 中看到了这一点:

在此处输入图像描述

它表明本地检查点保存在内存中。

4

2 回答 2

5

本地检查点将您的数据存储在执行程序存储中(如屏幕截图所示)。它对于截断 RDD 的沿袭图很有用,但是,如果发生节点故障,您将丢失数据并且需要重新计算它(取决于您的应用程序,您可能需要付出高昂的代价)。

“标准”检查点将您的数据存储在可靠的文件系统(如 hdfs)中。执行起来成本更高,但即使发生故障,您也不需要重新计算数据。当然,它会截断沿袭图。

截断长沿袭图可避免出现堆栈溢出异常,并且在迭代算法中特别有用

于 2019-11-14T14:39:05.133 回答
2
  • 本地检查点将数据写入执行程序存储
  • 经典检查点将数据写入 HDFS

本地检查点经典检查点更快,但经典检查点更安全,因为它利用HDFS可靠性,如块复制。

于 2019-11-14T14:38:47.930 回答