2

如果我启动一个由 1 台主 n1-standard-4 和 4 台工作机器(也是 n1-standard-4)组成的 Dataproc 集群,我如何知道默认创建了多少个分区?如果我想确保我有 32 个分区,我在 PySpark 脚本中使用什么语法?我正在从 Google 存储桶中读取 .csv 文件。

是不是简单

myRDD = sc.textFile("gs://PathToFile", 32)

如何判断正在运行的分区数量(使用 Dataproc 作业输出屏幕?

谢谢

4

1 回答 1

3

要获取 RDD 中的分区数:http: //spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions

要重新分区 RDD:http ://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition

于 2016-04-14T02:17:25.407 回答