0

在 Spark 中,如果我们必须重新洗牌数据,我们可以使用数据帧的重新分区。在 apache Beam 中为 pcollection 做同样的事情的方法是什么?

在 pyspark 中,

new_df = df.repartition(4)
4

1 回答 1

0

从这个文档

您可以插入 Reshuffle 步骤。Reshuffle 可防止融合、检查数据并执行记录的重复数据删除。Dataflow 支持 Reshuffle,即使它在 Apache Beam 文档中被标记为已弃用。

虽然我不确定 Reshuffle 是否并且仍然会得到 Beam 的其他运行者的支持。

Java文档和 Reshuffle 的进一步解释:Apache Beam/Dataflow Reshuffle

于 2021-05-04T17:58:32.583 回答