dataframe - Pyspark 使用自定义函数将每一行存储到自定义对象中，例如节点对象

Question

有没有办法利用 map 函数将 pyspark 数据帧的每一行存储到自定义的 python 类对象中？

例如，在上图中我有一个 spark 数据框，我想将每一行 id、features、label 存储到一个节点对象中（具有 3 个属性 node_id、node_features 和 node_label）。我想知道这在pyspark中是否可行。我尝试过类似的东西

对于 df.rdd.collect() 中的行 do_something (row)

但这不能处理大数据，而且速度极慢。我想知道是否有更有效的方法来解决它。非常感谢。

score 0 · Accepted Answer

您可以使用foreach方法进行操作。该操作将在 Spark 中并行化。

如果您需要更多详细信息，请参阅Pyspark 应用 foreach 。

1 回答 1