1

在具有 5000 万个案例的 csv 数据帧上使用 pandas 和 seaborn 来制作一些分散矩阵,我注意到处理时间真的很长,为了方便我df.sample()对部分数据进行了处理,这减少了处理时间。考虑到apache spark我想问是否有可能应用它的速度来处理所有 5000 万个数据以创建:scatter matrix、、scatter plotpairgridseaborn在获取有关此主题的信息后,我发现要做到这一点非常困难。

4

0 回答 0