考虑以下 SchemaRDD:
schemaRdd = hiveContext.sql(myQuery)
我无法在其上使用partitionBy,尝试了以下操作:
numParts = 10
schemaRdd.partitionBy(numParts)
schemaRdd.keyBy(lambda row: row[0]).partitionBy(numParts)
两者都给出“Row”对象没有属性“_get_object_id”错误。
然后我们如何使用 - 选择的#partitions - 特定分区器对 SchemaRdd 进行分区 - 我还想在 _get_object_id 问题解决后提供第二个参数,即分区器