使用箭头优化时,toPandas() 实际上做了什么?
生成的 pandas 数据帧对于 pandas 数据帧上的广泛转换(需要数据混洗)是否安全,例如。.merge
操作?组和聚合呢?我应该期待什么样的性能限制?
我试图在可能的情况下标准化为 Pandas 数据帧,因为易于单元测试和与内存对象的可交换性,而无需启动可怕的 spark 实例。
使用箭头优化时,toPandas() 实际上做了什么?
生成的 pandas 数据帧对于 pandas 数据帧上的广泛转换(需要数据混洗)是否安全,例如。.merge
操作?组和聚合呢?我应该期待什么样的性能限制?
我试图在可能的情况下标准化为 Pandas 数据帧,因为易于单元测试和与内存对象的可交换性,而无需启动可怕的 spark 实例。