python - Pyspark 说“行”对象在 partitionBy() 上没有属性“_get_object_id”

翻译自：https://stackoverflow.com/questions/28977981 2015-03-11T03:17:55.327

2907 次

考虑以下 SchemaRDD：

schemaRdd = hiveContext.sql(myQuery)

我无法在其上使用partitionBy，尝试了以下操作：

numParts = 10
schemaRdd.partitionBy(numParts)

schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)

两者都给出“Row”对象没有属性“_get_object_id”错误。

然后我们如何使用 - 选择的#partitions - 特定分区器对 SchemaRdd 进行分区 - 我还想在 _get_object_id 问题解决后提供第二个参数，即分区器

0 回答 0