1

我正在尝试运行我创建的 pyspark 作业,该作业使用 boto3 库从 s3 下载和上传数据。虽然作业在 pycharm 中运行良好,但当我尝试使用此模板在 nifi 中运行它时https://github.com/Teradata/kylo/blob/master/samples/templates/nifi-1.0/template-starter-pyspark.xml

ExecutePySpark 出现“没有名为 boto3 的模块”的错误。

我确保它安装在我的活动 conda 环境中。

任何想法,我肯定我错过了一些明显的东西。

这是 nifi spark 处理器的图片。

在此处输入图像描述

谢谢,蒂姆

4

1 回答 1

2

应该运行的 Python 环境PySpark是通过PYSPARK_PYTHON变量配置的。

  • 进入 Spark 安装目录
  • conf
  • 编辑spark-env.sh
  • 添加这一行:export PYSPARK_PYTHON=PATH_TO_YOUR_CONDA_ENV
于 2018-04-24T06:16:18.227 回答