我有一份 pyspark 应用程序的 EMR 工作。我的代码包括一些外部包和一些用于查找的文件。
当我在本地框中尝试相同时,这是文件系统的层次结构。
[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
-you have some files which will be used by temp.py
更多详细信息:
当我运行 WorkCount.py 时,它会在其中导入 temp.py。files 文件夹包含一些模型文件。temp.py 在内部使用这些模型文件。在本地框中,我将所有代码保存在一个地方并运行该作业,它在那里工作正常
它在 localbox 中工作正常,但是当我在集群中运行时失败
[1] No module temp found
[2] No *** file does not exist
有人能告诉我我应该如何在 EMR 集群中组织它,这样我才能顺利运行它。