我有一个事件案例类的数据集,我想将其中的 json 字符串元素保存到 s3 上的文件中,其路径类似于 bucketName/service/yyyy/mm/dd/hh/[SomeGuid].gz
例如,事件案例类如下所示:
case class Event(
hourPath: String, // e.g. bucketName/service/yyyy/mm/dd/hh/
json: String // The json line that represents this particular event.
... // Other properties used in earlier transformations.
)
有没有办法保存我们将属于特定时间的事件写入 s3 上的文件的数据集?
在 DataframeWriter 上调用 partitionBy 是我能得到的最接近的方法,但文件路径并不是我想要的。