0

在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。

4

1 回答 1

0

spark-shell(使用 scala)/ pyspark 用于超高速集群计算。

这完全取决于集群的大小,尤其是您要分配给每个工作人员的 SPARK_WORKER_MEMORY。

如果您的数据更多地适合内存,spark 将有效地利用 DISK(连同内存)。

希望这可以帮助 :)

于 2014-01-14T12:07:06.420 回答