1

我们将几个 ZIP 文件传递​​给带有以下示例Spark-Submit的选项。--py-files

spark-submit --master yarn \
--name Application \
--deploy-mode cluster \
--driver-memory 3g \
--py-files "/<PATH>/Specific_App.zip","/<PATH>/Utilities.zip"

在运行 Spark 应用程序时,我的理解是在运行时解压缩 ZIP 文件以访问 Python 文件(模块)。现在我有几个关于这方面的问题......

  • ZIP 文件是否解压缩并保存在MEMORY中
  • 我如何才能知道文件是否在 Spark 应用程序中正确解压缩
  • 文件的解压缩是否会创建与 ZIP 文件同名的父文件夹
  • 假设在我的场景中,我的两个 ZIP 文件都有一个共同的树结构,例如(parent/child1/child2 里面没有任何文件,只有它的子目录)

Utilities.zip -> parent/child1/child2/utilities/

Specific_App.zip -> parent/child1/child2/Specific_App/

在这种情况下,当解压缩 ZIP 文件时会出现问题,例如,如果 Utilities.zip 之前解压缩,则可以说 Specific_App.zip 被解压缩,文件夹结构 parent/child1/child2 将已经可用。

我收到 Module not found 错误,并看到导入的模块位于 Utilities.zip 中的正确路径中。

如果需要更多信息,请告诉我。

4

0 回答 0