Spark 中数据帧操作的算法复杂度和/或内存消耗是多少?我在文档中找不到任何信息。
一个有用的例子是使用另一列 ( withColumn()
) 扩展数据帧时的内存/磁盘占用量的答案:(在具有自动垃圾收集的 Python 中)最好table = table.withColumn(…)
还是extended_table = table.withColumn()
使用相同的内存?
PS:假设两个表都使用persist()
.
Spark 中数据帧操作的算法复杂度和/或内存消耗是多少?我在文档中找不到任何信息。
一个有用的例子是使用另一列 ( withColumn()
) 扩展数据帧时的内存/磁盘占用量的答案:(在具有自动垃圾收集的 Python 中)最好table = table.withColumn(…)
还是extended_table = table.withColumn()
使用相同的内存?
PS:假设两个表都使用persist()
.