在 Spark 中,如果我们必须重新洗牌数据,我们可以使用数据帧的重新分区。在 apache Beam 中为 pcollection 做同样的事情的方法是什么?
在 pyspark 中,
new_df = df.repartition(4)
在 Spark 中,如果我们必须重新洗牌数据,我们可以使用数据帧的重新分区。在 apache Beam 中为 pcollection 做同样的事情的方法是什么?
在 pyspark 中,
new_df = df.repartition(4)
从这个文档:
您可以插入 Reshuffle 步骤。Reshuffle 可防止融合、检查数据并执行记录的重复数据删除。Dataflow 支持 Reshuffle,即使它在 Apache Beam 文档中被标记为已弃用。
虽然我不确定 Reshuffle 是否并且仍然会得到 Beam 的其他运行者的支持。
Java文档和 Reshuffle 的进一步解释:Apache Beam/Dataflow Reshuffle