我正在使用 Spark 2.2.1,它有一个有用的选项来指定我想在文件的每个分区中保存多少条记录;此功能允许在写入文件之前避免重新分区。但是,似乎此选项仅可用于 FileWriter 接口而不是 DataFrameWriter 接口:这样该选项被忽略
df.write.mode("overwrite")
.option("maxRecordsPerFile", 10000)
.insertInto(hive_table)
虽然以这种方式工作
df.write.option("maxRecordsPerFile", 10000)
.mode("overwrite").orc(path_hive_table)
所以我是直接在指定表的HiveMetastore文件夹中写入orc文件。问题是如果我在插入后查询 Hive 表,则 Hive 无法识别此数据。你知道是否有办法在 hive 元存储中直接写入分区文件并通过 Hive 表使它们也可用?