python - 使用 toPandas() 方法将 spark 数据帧转换为 Pandas 数据帧时会发生什么

Question

我有一个 spark 数据框，我可以使用

toPandas()

pyspark 中可用的方法。

我对此有以下疑问？

谢谢

score 5 · Accepted Answer

是的，一旦toPandas在 spark-dataframe 上调用，它将退出分布式系统，新的 pandas 数据帧将在集群的驱动程序节点中。

如果火花数据帧很大并且不适合驱动程序内存，它将崩溃。

1 回答 1