0

我需要运行 PySpark 应用程序 (v1.6.3)。有--py-files添加 .zip、.egg 或 .py 文件的标志。如果我有一个 Python 包/模块/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy,我将如何包含整个模块?

在这个目录中,我确实注意到了一些 *.py 和 *.pyc 文件。

  • fuzz.py
  • 进程.py
  • 字符串匹配器.py
  • 字符串处理.py
  • 实用程序.py

我是否必须一一包括这些?例如。

spark-submit \
 --py-files /usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/fuzz.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/process.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/StringMatcher.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/string_processing.py,/usr/anaconda2/lib/python2.7/site-packages/fuzzywuzzy/utils.py

有没有更简单的方法?

  • 我应该尝试找到 .egg 或 .zip 并使用它(例如pypi)吗?
  • 我可以压缩这个目录并把它传进去吗?

任何提示或指示将不胜感激。实际上,我需要更多由 conda 管理的 Python 模块。

4

1 回答 1

0

我建议从其他方向做。通过以下方式安装pyspark到 Anaconda:

conda install -c conda-forge pyspark=2.1.1
于 2017-06-25T17:08:13.337 回答