我目前正在使用 pyspark 为机器学习应用程序执行一些数据清理。最后一个会话崩溃了,但我设置了一个检查点目录并检查了我的数据帧。
现在我有以下形式的检查点数据目录:
id-of-checkpoint-dir/
\\- rdd-123/
\\- rdd-456/
rdd-subfolders 中的文件似乎是十六进制文件。
我怎样才能阅读这个检查点,以便我可以继续我的数据准备而不是再次运行整个过程?
我目前正在使用 pyspark 为机器学习应用程序执行一些数据清理。最后一个会话崩溃了,但我设置了一个检查点目录并检查了我的数据帧。
现在我有以下形式的检查点数据目录:
id-of-checkpoint-dir/
\\- rdd-123/
\\- rdd-456/
rdd-subfolders 中的文件似乎是十六进制文件。
我怎样才能阅读这个检查点,以便我可以继续我的数据准备而不是再次运行整个过程?