python - Databricks 在线程“main”java.lang.NoSuchMethodError 中连接到 IntelliJ + python 错误异常：

Question

我试图将我的数据块与我的 IDE 连接起来

我的机器上没有下载 spark ad/或 scala，但我下载了 pyspark（pip install pyspark）。我构造了必要的环境变量并创建了一个文件夹 Hadoop，我在其中放置了一个文件夹 bin，我在其中放置了一个 winutils.exe 文件。

这是一个循序渐进的过程，在这个过程中，我的所有错误都缓慢而稳定地得到解决，除了最后一个错误：

import logging
from pyspark.sql import SparkSession
from pyspark import SparkConf

if __name__ == "__main__":
    spark = SparkSession.builder.getOrCreate()
    spark.sparkContext.setLogLevel("OFF")

给

1/03/30 15:14:33 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Exception in thread "main" java.lang.NoSuchMethodError: py4j.GatewayServer$GatewayServerBuilder.securityManager(Lpy4j/security/Py4JSecurityManager;)Lpy4j/GatewayServer$GatewayServerBuilder;
    at org.apache.spark.api.python.Py4JServer.<init>(Py4JServer.scala:68)
    at org.apache.spark.api.python.PythonGatewayServer$.main(PythonGatewayServer.scala:37)
    at org.apache.spark.api.python.PythonGatewayServer.main(PythonGatewayServer.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
    at java.lang.reflect.Method.invoke(Unknown Source)
    at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
    at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:928)
    at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:203)
    at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:90)
    at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1007)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1016)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

所以第一个警告可能是因为我没有安装 hadoop/spark。但是，我读到只要 Windows 可执行文件 winutils.exe 在 Hadoop 的 bin 文件夹中，这应该可以工作。（在我在那个文件夹中有winutils之前，出现了其他错误，我通过添加winutils.exe文件来处理这些错误）所以这是关于线程'main'错误中的异常。

任何想法？

score 3 · Accepted Answer

您需要按照文档中的说明卸载 PySpark 。根据文档：

在 Python 中初始化 Spark 上下文时，两者都安装会导致错误。这可以通过多种方式表现出来，包括“流损坏”或“<strong>class not found”错误。如果您在 Python 环境中安装了 PySpark，请确保在安装 databricks-connect 之前将其卸载。

所以你需要做：

pip uninstall pyspark
pip uninstall databricks-connect
pip install -U databricks-connect==5.5.*  # or X.Y.* to match your cluster version.

python - Databricks 在线程“main”java.lang.NoSuchMethodError 中连接到 IntelliJ + python 错误异常：

1 回答 1

Related

Reference