2

我想在 PyCharm 中调试 Spark 代码,因为它更容易调试。但我需要添加一个spark-redis.jar否则Failed to find data source: redis

连接redis的代码是

spark = SparkSession \
            .builder \
            .appName("Streaming Image Consumer") \
            .config("spark.redis.host", self.redis_host) \
            .config("spark.redis.port", self.redis_port) \
            .getOrCreate()

如果使用 PyCharm,该如何解决?

我已经尝试添加spark.driver.extraClassPath$SPARK_HOME/conf/spark-defaults.conf但它不起作用。

我也尝试在运行配置中添加环境变量PYSPARK_SUBMIT_ARGS --jars ...,但它引发了其他错误

4

1 回答 1

1

使用 Spark 2.3.1添加spark.driver.extraClassPath对我有用spark-defaults.conf

cat /Users/oleksiidiagiliev/Soft/spark-2.3.1-bin-hadoop2.7/conf/spark-defaults.conf

spark.driver.extraClassPath /Users/oleksiidiagiliev/.m2/repository/com/redislabs/spark-redis/2.3.1-SNAPSHOT/spark-redis-2.3.1-SNAPSHOT-jar-with-dependencies.jar

请注意,这是一个带有依赖项的 jar(您可以使用 来自源代码构建一个mvn clean install -DskipTests)。

Aslo 我将 pyspark 库和SPARK_HOME环境变量添加到 PyCharm 项目中,如此处所述https://medium.com/parrot-prediction/integrating-apache-spark-2-0-with-pycharm-ce-522a6784886f

于 2019-07-11T14:34:12.607 回答