我有一个通过 Jupyter 在 Ubuntu VM 上运行的 Pyspark 安装。
只有一个 Java 版本 ( openjdk version "1.8.0_265"
),我可以像这样运行本地 Spark (v2.4.4) 会话而不会出现问题:
import pyspark
from pyspark.sql import SparkSession
memory_gb = 24
conf = (
pyspark.SparkConf()
.setMaster('local[*]')
.set('spark.driver.memory', '{}g'.format(memory_gb))
)
spark = SparkSession \
.builder \
.appName("My Name") \
.config(conf=conf) \
.getOrCreate()
现在我想使用spark-nlp
. 我已经安装在我的spark-nlp
Pysparkpip install spark-nlp
所在的同一虚拟环境中。
但是,当我尝试使用它时,我得到了错误Exception: Java gateway process exited before sending its port number
。
我尝试按照此处文档中的说明进行操作,但没有成功。
这样做
spark = SparkSession \
.builder \
.appName("RevDNS Stats") \
.config(conf=conf) \
.config("spark.jars.packages", "com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.5")\
.getOrCreate()
只会导致上面提到的错误。
我该如何解决?