apache-spark - 等效于 Apache Beam 中的重新分区

Question

在 Spark 中，如果我们必须重新洗牌数据，我们可以使用数据帧的重新分区。在 apache Beam 中为 pcollection 做同样的事情的方法是什么？

在 pyspark 中，

new_df = df.repartition(4)

score 0 · Accepted Answer

从这个文档：

您可以插入 Reshuffle 步骤。Reshuffle 可防止融合、检查数据并执行记录的重复数据删除。Dataflow 支持 Reshuffle，即使它在 Apache Beam 文档中被标记为已弃用。

虽然我不确定 Reshuffle 是否并且仍然会得到 Beam 的其他运行者的支持。

Java文档和 Reshuffle 的进一步解释：Apache Beam/Dataflow Reshuffle

1 回答 1