如果我启动一个由 1 台主 n1-standard-4 和 4 台工作机器(也是 n1-standard-4)组成的 Dataproc 集群,我如何知道默认创建了多少个分区?如果我想确保我有 32 个分区,我在 PySpark 脚本中使用什么语法?我正在从 Google 存储桶中读取 .csv 文件。
是不是简单
myRDD = sc.textFile("gs://PathToFile", 32)
如何判断正在运行的分区数量(使用 Dataproc 作业输出屏幕?
谢谢
如果我启动一个由 1 台主 n1-standard-4 和 4 台工作机器(也是 n1-standard-4)组成的 Dataproc 集群,我如何知道默认创建了多少个分区?如果我想确保我有 32 个分区,我在 PySpark 脚本中使用什么语法?我正在从 Google 存储桶中读取 .csv 文件。
是不是简单
myRDD = sc.textFile("gs://PathToFile", 32)
如何判断正在运行的分区数量(使用 Dataproc 作业输出屏幕?
谢谢
要获取 RDD 中的分区数:http: //spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.getNumPartitions
要重新分区 RDD:http ://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.RDD.repartition