apache-spark - 在 spark python 中导入外部模块

问问题 2017-02-24T12:58:34.197

1354 次

我有一份 pyspark 应用程序的 EMR 工作。我的代码包括一些外部包和一些用于查找的文件。

当我在本地框中尝试相同时，这是文件系统的层次结构。

[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
        -you have some files which will be used by temp.py

更多详细信息：
当我运行 WorkCount.py 时，它会在其中导入 temp.py。files 文件夹包含一些模型文件。temp.py 在内部使用这些模型文件。在本地框中，我将所有代码保存在一个地方并运行该作业，它在那里工作正常
它在 localbox 中工作正常，但是当我在集群中运行时失败

[1] No module temp found
[2] No *** file does not exist

有人能告诉我我应该如何在 EMR 集群中组织它，这样我才能顺利运行它。

apache-spark - 在 spark python 中导入外部模块

0 回答 0

Related

Reference