apache-spark - 作业未显示在 Spark WebUI 上

Question

我是一个天真的火花用户。我安装了 spark 并使用 anaconda install pyspark，然后在下面给出的 jupyter notebook 中运行基本代码。然后我打开 spark WebUI，但是我看不到任何正在运行或已完成的作业。任何意见表示赞赏。

from pyspark.sql import SparkSession
spark = SparkSession.builder\
    .master("local")\
    .appName("NQlabtop")\
    .config('spark.ui.port', '4050')\
    .getOrCreate()
sc = spark.sparkContext
input_file=sc.textFile("C:/Users/nqazi/NQ/anscombe.json")
map = input_file.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1))
counts = map.reduceByKey(lambda a, b: a + b)
print("counts",counts)
sc = spark.sparkContext
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

请参阅下面的 Spark WebUI 图像。我不确定为什么我看不到任何工作，因为我认为它应该显示已完成的工作。

score 0 · Accepted Answer

PySpark（Spark）转换和动作中有两种类型的函数。转换是延迟评估的，并且 PySpark 不会执行任何工作，直到您调用类似 , 等的show操作count函数collect。

apache-spark - 作业未显示在 Spark WebUI 上

1 回答 1

Related

Reference