0

我有一个需要填充的 Spark 数据框。数据框的大小很大(> 1 亿行)。我可以使用 pandas 实现我想要的,如下所示。

new_df = df_pd.set_index('someDateColumn') \
              .groupby(['Column1', 'Column2', 'Column3']) \
              .resample('D') \
              .ffill() \
              .reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
              .reset_index()

.resample('D')我在尝试使用考拉时被卡住了。有没有更好的替代方法来填充火花本机函数中的复制逻辑?原因是,我想避免使用 pandas,因为它不是分布式的并且仅在驱动程序节点上执行。

如何使用 Spark/Koalas 包实现与上述相同的功能?

4

1 回答 1

0

如果您正在寻找Spark中的前向填充,请按照本教程进行操作以迎合这一点 -这里

于 2020-08-04T05:49:13.393 回答