amazon-s3 - 使用 pyspark 以编程方式从 S3 存储桶中删除镶木地板分区

翻译自：https://stackoverflow.com/questions/65078296 2020-11-30T17:27:05.787

312 次

我有一个在 S3 文件系统 (s3fs) 中分区的镶木地板文件，如下所示：

STATE='DORMANT'
-----> DATE=2020-01-01
-----> DATE=2020-01-02
             ....
-----> DATE=2020-11-01

STATE='ACTIVE'
-----> DATE=2020-01-01
-----> DATE=2020-01-02
             ....
-----> DATE=2020-11-01

每天都有新数据附加到 parquet 文件并相应地进行分区。

我想只保留最后 90 天的数据并删除其余数据。所以当第 91 条数据进来时，它会追加然后删除DATE分区中的第 1 天。当第 92 天到来时，它会删除第 2 天，依此类推。

这可以通过pyspark实现吗？

amazon-s3 - 使用 pyspark 以编程方式从 S3 存储桶中删除镶木地板分区

0 回答 0

Related

Reference