1

我是一个天真的火花用户。我安装了 spark 并使用 anaconda install pyspark,然后在下面给出的 jupyter notebook 中运行基本代码。然后我打开 spark WebUI,但是我看不到任何正在运行或已完成的作业。任何意见表示赞赏。

from pyspark.sql import SparkSession
spark = SparkSession.builder\
    .master("local")\
    .appName("NQlabtop")\
    .config('spark.ui.port', '4050')\
    .getOrCreate()
sc = spark.sparkContext
input_file=sc.textFile("C:/Users/nqazi/NQ/anscombe.json")
map = input_file.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1))
counts = map.reduceByKey(lambda a, b: a + b)
print("counts",counts)
sc = spark.sparkContext
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

请参阅下面的 Spark WebUI 图像。我不确定为什么我看不到任何工作,因为我认为它应该显示已完成的工作。

在此处输入图像描述

4

1 回答 1

0

PySpark(Spark)转换动作中有两种类型的函数。转换是延迟评估的,并且 PySpark 不会执行任何工作,直到您调用类似 , 等的show操作count函数collect

于 2021-01-29T08:29:43.553 回答