17

pyspark RDD 文档

http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD

没有显示任何方法来显示 RDD 的分区信息。

有没有办法在不执行额外步骤的情况下获取该信息,例如:

myrdd.mapPartitions(lambda x: iter[1]).sum()

以上确实有效..但似乎需要额外的努力。

4

2 回答 2

44

我错过了:很简单:

rdd.getNumPartitions()

不再习惯 java-ish get FooMethod() 了;)

更新:添加来自@dnlbrky 的评论:

dataFrame.rdd.getNumPartitions()
于 2015-03-15T02:06:10.997 回答
1

OP 没有指定他想为分区获取哪些信息(但似乎对分区的数量很满意)。

如果它是您要查找的每个分区中的元素数(如此处的情况),则以下解决方案可以正常工作: https ://gist.github.com/venuktan/bd3a6b6b83bd6bc39c9ce5810607a798

于 2021-10-05T14:32:21.057 回答