0

有没有办法利用 map 函数将 pyspark 数据帧的每一行存储到自定义的 python 类对象中?

pyspark 数据框

例如,在上图中我有一个 spark 数据框,我想将每一行 id、features、label 存储到一个节点对象中(具有 3 个属性 node_id、node_features 和 node_label)。我想知道这在pyspark中是否可行。我尝试过类似的东西

对于 df.rdd.collect() 中的行 do_something (row)

但这不能处理大数据,而且速度极慢。我想知道是否有更有效的方法来解决它。非常感谢。

4

1 回答 1

0

您可以使用foreach方法进行操作。该操作将在 Spark 中并行化。

如果您需要更多详细信息,请参阅Pyspark 应用 foreach 。

于 2020-07-13T18:34:28.393 回答