azure-data-lake - 将路径文件夹输出到没有“ColumnName =”的 Data Lake Store

Question

是否可以在不返回路径“ColumnName=Value”的情况下使用函数 partitionBy 或其他函数？

我在 azure databricks 中使用 python 笔记本将 csv 文件发送到 Azure Data Lake Store。使用的 Cmd 如下：

%scala
val filepath= "dbfs:/mnt/Test"

Sample
  .coalesce(1)       
  .write             
  .mode("overwrite")
  .partitionBy("Year","Month","Day")
  .option("header", "true")
  .option("delimiter",";")
  .csv(filepath)

期望有这条路径：/Test/2018/12/11

而不是：/Test/Year=2018/Month=12/Day=11

score 1 · Accepted Answer

这是预期的行为。Spark 使用带有列名的分区的目录路径。

如果您需要特定目录，您应该使用下游流程重命名目录，或者您可以过滤您的 df 并在特定目录中一一保存。

azure-data-lake - 将路径文件夹输出到没有“ColumnName =”的 Data Lake Store

1 回答 1

Related

Reference