0

使用箭头优化时,toPandas() 实际上做了什么?

生成的 pandas 数据帧对于 pandas 数据帧上的广泛转换(需要数据混洗)是否安全,例如。.merge操作?组和聚合呢?我应该期待什么样的性能限制?

我试图在可能的情况下标准化为 Pandas 数据帧,因为易于单元测试和与内存对象的可交换性,而无需启动可怕的 spark 实例。

4

1 回答 1

0

toPandas()获取您的spark 数据框对象并将客户端驱动程序机器上的所有分区作为pandas 数据框。对这个新对象(pandas dataframe)的任何操作都将在一台带有 python 的机器上运行,因此不可能进行广泛的转换,因为您不再使用spark集群分布式计算(即没有分区/工作节点交互)。

于 2019-08-30T19:45:54.880 回答