apache-spark - 如何指定/检查 Dataproc 集群上的分区数

Question

如果我启动一个由 1 台主 n1-standard-4 和 4 台工作机器（也是 n1-standard-4）组成的 Dataproc 集群，我如何知道默认创建了多少个分区？如果我想确保我有 32 个分区，我在 PySpark 脚本中使用什么语法？我正在从 Google 存储桶中读取 .csv 文件。

是不是简单

myRDD = sc.textFile("gs://PathToFile", 32)

如何判断正在运行的分区数量（使用 Dataproc 作业输出屏幕？

谢谢

score 3 · Accepted Answer

要获取 RDD 中的分区数：http: //spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions

要重新分区 RDD：http ://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition

apache-spark - 如何指定/检查 Dataproc 集群上的分区数

1 回答 1

Related

Reference