apache-spark - 当数据大小大于内存时，PySpark 是否提供优势？

Question

在处理太大而无法完全加载到内存中的数据时，PySpark 是否提供任何优势？我正在尝试将此（和其他功能）与基于 IPy Parallel 的方法进行比较。

score 0 · Accepted Answer

spark-shell（使用 scala）/ pyspark 用于超高速集群计算。

这完全取决于集群的大小，尤其是您要分配给每个工作人员的 SPARK_WORKER_MEMORY。

如果您的数据更多地适合内存，spark 将有效地利用 DISK（连同内存）。

希望这可以帮助：）

1 回答 1