Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个 spark 数据框,我可以使用
toPandas()
pyspark 中可用的方法。
我对此有以下疑问?
谢谢
是的,一旦toPandas在 spark-dataframe 上调用,它将退出分布式系统,新的 pandas 数据帧将在集群的驱动程序节点中。
toPandas
如果火花数据帧很大并且不适合驱动程序内存,它将崩溃。