我有一个在 S3 文件系统 (s3fs) 中分区的镶木地板文件,如下所示:
STATE='DORMANT'
-----> DATE=2020-01-01
-----> DATE=2020-01-02
....
-----> DATE=2020-11-01
STATE='ACTIVE'
-----> DATE=2020-01-01
-----> DATE=2020-01-02
....
-----> DATE=2020-11-01
每天都有新数据附加到 parquet 文件并相应地进行分区。
我想只保留最后 90 天的数据并删除其余数据。所以当第 91 条数据进来时,它会追加然后删除DATE
分区中的第 1 天。当第 92 天到来时,它会删除第 2 天,依此类推。
这可以通过pyspark实现吗?