1

我有一个通过 Jupyter 在 Ubuntu VM 上运行的 Pyspark 安装。
只有一个 Java 版本 ( openjdk version "1.8.0_265"),我可以像这样运行本地 Spark (v2.4.4) 会话而不会出现问题:

import pyspark
from pyspark.sql import SparkSession

memory_gb = 24
conf = (
    pyspark.SparkConf()
        .setMaster('local[*]')
        .set('spark.driver.memory', '{}g'.format(memory_gb))
)

spark = SparkSession \
    .builder \
    .appName("My Name") \
    .config(conf=conf) \
    .getOrCreate()

现在我想使用spark-nlp. 我已经安装在我的spark-nlpPysparkpip install spark-nlp所在的同一虚拟环境中。

但是,当我尝试使用它时,我得到了错误Exception: Java gateway process exited before sending its port number

我尝试按照此处文档中的说明进行操作,但没有成功。

这样做

spark = SparkSession \
    .builder \
    .appName("RevDNS Stats") \
    .config(conf=conf) \
    .config("spark.jars.packages", "com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.5")\
    .getOrCreate()

只会导致上面提到的错误。

我该如何解决?

4

0 回答 0