apache-spark - 将 Dataset/Dataframe 写入 HDFS 目录，但 partitionBy() 后没有列名：Spark 2.1.0

Question

我正在使用 partitionBy() 按某个 ID 对数据集/数据框进行分区。但是，当文件被写入时，它正在创建目录，其名称和列的值由“=”符号分隔。

Seq<String> partitionCols = JavaConversions.asScalaBuffer(Arrays.asList("alert_pas_documentid"));
                fnDatasetWithDocumentID.write().mode("overwrite").partitionBy(partitionCols).json("/user/creando/cdx/alert_pas/");

如何避免获取列名和“=”符号。这是创建的示例目录。

/user/creando/cdx/inv_devices/inv_devices_documentid=700001_596970dba94c040001381a71_700001

score 0 · Accepted Answer

您可以在写入之前重新分区数据集，而不是与写入器重新分区，即：

Seq<Column> partitionCols = ...
fnDatasetWithDocumentID.repartition(partitionCols).write().mode("overwrite").json("/user/creando/cdx/alert_pas/");

apache-spark - 将 Dataset/Dataframe 写入 HDFS 目录，但 partitionBy() 后没有列名：Spark 2.1.0

1 回答 1

Related

Reference