Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在处理太大而无法完全加载到内存中的数据时,PySpark 是否提供任何优势?我正在尝试将此(和其他功能)与基于 IPy Parallel 的方法进行比较。
spark-shell(使用 scala)/ pyspark 用于超高速集群计算。
这完全取决于集群的大小,尤其是您要分配给每个工作人员的 SPARK_WORKER_MEMORY。
如果您的数据更多地适合内存,spark 将有效地利用 DISK(连同内存)。
希望这可以帮助 :)