1

Spark 中数据帧操作的算法复杂度和/或内存消耗是多少?我在文档中找不到任何信息。

一个有用的例子是使用另一列 ( withColumn()) 扩展数据帧时的内存/磁盘占用量的答案:(在具有自动垃圾收集的 Python 中)最好table = table.withColumn(…)还是extended_table = table.withColumn()使用相同的内存?

PS:假设两个表都使用persist().

4

1 回答 1

1

分配给同一个变量或另一个变量没有区别。Spark 只是使用这些分配从您指定的操作构建沿袭图。当您调用实际的 Spark 操作时,将执行沿袭图中的操作。

.cache()仅当您通过或缓存中间结果时才需要额外的内存.persist()

于 2016-02-14T18:28:08.343 回答