time-complexity - Spark中数据帧操作的时间复杂度和内存占用是多少？

Question

Spark 中数据帧操作的算法复杂度和/或内存消耗是多少？我在文档中找不到任何信息。

一个有用的例子是使用另一列 ( withColumn()) 扩展数据帧时的内存/磁盘占用量的答案：（在具有自动垃圾收集的 Python 中）最好table = table.withColumn(…)还是extended_table = table.withColumn()使用相同的内存？

PS：假设两个表都使用persist().

score 1 · Accepted Answer

分配给同一个变量或另一个变量没有区别。Spark 只是使用这些分配从您指定的操作构建沿袭图。当您调用实际的 Spark 操作时，将执行沿袭图中的操作。

.cache()仅当您通过或缓存中间结果时才需要额外的内存.persist()。

time-complexity - Spark中数据帧操作的时间复杂度和内存占用是多少？

1 回答 1

Related

Reference