我有一个在许多国家/地区分区的蜂巢表。我想将特定的分区数据加载到我的数据框中,如下所示:
df=spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table").where('country="NCL"' && 'county="RUS"')
尽管我能够为单个分区加载,但它给了我一个错误。
下面是我在 hdfs 中的目录结构
/apps/hive/warehouse/emp.db/partition_load_table/country=NCL
df=spark.read.orc("/apps/hive/warehouse/emp.db/partition_load_table").where('country="NCL"')