1

我有一个在 S3 文件系统 (s3fs) 中分区的镶木地板文件,如下所示:

STATE='DORMANT'
-----> DATE=2020-01-01
-----> DATE=2020-01-02
             ....
-----> DATE=2020-11-01

STATE='ACTIVE'
-----> DATE=2020-01-01
-----> DATE=2020-01-02
             ....
-----> DATE=2020-11-01

每天都有新数据附加到 parquet 文件并相应地进行分区。

我想只保留最后 90 天的数据并删除其余数据。所以当第 91 条数据进来时,它会追加然后删除DATE分区中的第 1 天。当第 92 天到来时,它会删除第 2 天,依此类推。

这可以通过pyspark实现吗?

4

0 回答 0