在具有 5000 万个案例的 csv 数据帧上使用 pandas 和 seaborn 来制作一些分散矩阵,我注意到处理时间真的很长,为了方便我df.sample()
对部分数据进行了处理,这减少了处理时间。考虑到apache spark
我想问是否有可能应用它的速度来处理所有 5000 万个数据以创建:scatter matrix
、、scatter plot
等pairgrid
。seaborn
在获取有关此主题的信息后,我发现要做到这一点非常困难。
问问题
281 次