1

我目前正在使用 pyspark 为机器学习应用程序执行一些数据清理。最后一个会话崩溃了,但我设置了一个检查点目录并检查了我的数据帧。

现在我有以下形式的检查点数据目录:

id-of-checkpoint-dir/
\\- rdd-123/
\\- rdd-456/

rdd-subfolders 中的文件似乎是十六进制文件。

我怎样才能阅读这个检查点,以便我可以继续我的数据准备而不是再次运行整个过程?

4

0 回答 0