2

考虑以下 SchemaRDD:

schemaRdd = hiveContext.sql(myQuery)

我无法在其上使用partitionBy,尝试了以下操作:

numParts = 10
schemaRdd.partitionBy(numParts)

schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)

两者都给出“Row”对象没有属性“_get_object_id”错误。

然后我们如何使用 - 选择的#partitions - 特定分区器对 SchemaRdd 进行分区 - 我还想在 _get_object_id 问题解决后提供第二个参数,即分区器

4

0 回答 0