我只是一个喜欢用 Python 处理数据的 Python 新手。
当我能够使用 Python 的代表性数据工具 Pandas 时,它似乎能够非常快速地在 Excel 上工作。
但是,我有点失望地看到检索 470,000 行的数据(.xlsx)需要超过 1 到 2 分钟,结果我发现使用 modin 和 ray(或 dask)可以更快地运行。
在学习了如何简单地使用它之后,我将它与仅使用 Pandas 进行了比较。(这次是100M行数据,大约5GB)
import ray
ray.init()
import modin.pandas as md
%%time
TB = md.read_csv('train.csv')
TB
但是写 Pandas 只用了 1 分 3 秒,而写 modin [ray] 却用了 1 分 9 秒。我很失望地看到它需要更长的时间,而不仅仅是一个小的差异。
我怎样才能比 pandas 更快地使用 modin?groupby 或 merge 之类的复杂操作?单纯读取数据有没有区别?
别人用modin读取数据比较快,是不是我电脑设置有问题?我想知道为什么。
记下提示安装的方法,以备不时之需。
!pip install modin[ray]
!pip install ray[default]