有没有办法利用 map 函数将 pyspark 数据帧的每一行存储到自定义的 python 类对象中?
例如,在上图中我有一个 spark 数据框,我想将每一行 id、features、label 存储到一个节点对象中(具有 3 个属性 node_id、node_features 和 node_label)。我想知道这在pyspark中是否可行。我尝试过类似的东西
对于 df.rdd.collect() 中的行 do_something (row)
但这不能处理大数据,而且速度极慢。我想知道是否有更有效的方法来解决它。非常感谢。