3

我有一个 spark 数据框,我可以使用

toPandas()

pyspark 中可用的方法。

我对此有以下疑问?

  1. 这种转换是否破坏了使用 spark 本身(分布式计算)的目的?
  2. 数据集将是巨大的,那么速度和内存问题呢?
  3. 如果有人也可以解释,这行代码到底发生了什么,那真的很有帮助。

谢谢

4

1 回答 1

5

是的,一旦toPandas在 spark-dataframe 上调用,它将退出分布式系统,新的 pandas 数据帧将在集群的驱动程序节点中。

如果火花数据帧很大并且不适合驱动程序内存,它将崩溃。

于 2016-05-28T14:15:29.187 回答