0

是否可以在不返回路径“ColumnName=Value”的情况下使用函数 partitionBy 或其他函数?

我在 azure databricks 中使用 python 笔记本将 csv 文件发送到 Azure Data Lake Store。使用的 Cmd 如下:

%scala
val filepath= "dbfs:/mnt/Test"

Sample
  .coalesce(1)       
  .write             
  .mode("overwrite")
  .partitionBy("Year","Month","Day")
  .option("header", "true")
  .option("delimiter",";")
  .csv(filepath)

期望有这条路径:/Test/2018/12/11

而不是:/Test/Year=2018/Month=12/Day=11

4

1 回答 1

1

这是预期的行为。Spark 使用带有列名的分区的目录路径。

如果您需要特定目录,您应该使用下游流程重命名目录,或者您可以过滤您的 df 并在特定目录中一一保存。

于 2019-02-14T20:19:28.360 回答