问题标签 [modin]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
293 浏览

python - Modin 库在进行简单的 pandas 操作时抛出错误

我遇到了应该加速某些熊猫操作的 modin 库并开始对其进行测试。

虽然使用 read_csv 加载数据明显更快,但简单的条件表达式在纯 pandas 中完美运行,例如:

抛出许多错误:

回溯(最近一次通话最后):

这应该是一个简单的操作。是否有解决方法,或者我只是错过了加载以外的其他内容:

非常感谢!

0 投票
2 回答
1836 浏览

python - 运行 Modin pandas 以加快我的 pandas 功能时出现错误。如何解决此问题?

ImportError: Please `pip install modin[ray] or modin[dask] to install an engine

0 投票
0 回答
88 浏览

python - 如何检查熊猫导入是 modin 还是 original

在进行一些 OLS 回归时,我发现它statsmodels.api.add_constant()执行以下操作:

如果不是,它将被视为datandarray,因此您会丢失一些上下文信息(例如,作为回归变量名称的列名)。从 modin 导入 pandas 时,is_using_pandas()上述返回False.

可能statsmodels需要将其添加modin为受支持的选项,_is_using_pandas()但现在,我想做类似的事情:

一个人会怎么写is_using_modin_pandas()

0 投票
1 回答
443 浏览

python - 使用 modin.pandas 应用更快的 pandas

尝试使用 modin.pandas 将所有内核用于此应用功能

它适用于默认的 pandas,但使用 modin 会引发此错误:

文章是 DataFrame 中名为“data”的文本列

0 投票
0 回答
427 浏览

python - Modin Pandas 和 Dask 除了挂起什么也不做

我试图破译为什么这只是挂在 modin 上并且适用于普通熊猫:

当我在 pandas 下运行它时,它执行,但由于曲线文件的大小(约 36.5MB 输入和约 395MB 输出)平均需要 87 秒,我希望 modin 可以缩短那个时间。交换到 Modin 时的脚本运行,但它只是坐着,不做任何事情。它甚至不给我

我不知道这是否应该出现在控制台中,但它没有。当我进入曲线时,脚本开始读取 csv。然后它就坐着。从不做任何其他事情。我怎样才能弄清楚发生了什么?

如果重要的话,操作系统是 Windows10。

0 投票
1 回答
750 浏览

python-poetry - 'modin' 的 ModuleNotFoundError 即使它是由诗歌安装的

在线import modin.pandas as modin_pd我得到ModuleNotFoundError: No module named 'modin'。我正在使用诗歌和 JupyterLab。如果在我输入的单元格中!poetry add modin,我会ValueErrorPackage modin is already present

所以它无法安装modin,因为它已经安装但它也无法导入它。我缺少任何明显的解决方案吗?

pip freeze命令也显示modin已安装。我也尝试通过安装它,pip install但绝对没有让我最终导入这个模块。

0 投票
1 回答
49 浏览

python - 如何优化这个熊猫可迭代

我有以下方法,我根据一组分层规则消除数据框中的重叠间隔:

这很好用,除了我正在迭代的数据帧每个都有超过 100K 行,所以这需要很长时间才能完成。我对%prun在 Jupyter 中使用的各种方法进行了计时,似乎占用处理时间的方法是series.py:3719(apply)...... 注意:我尝试使用modin.pandas,但这会导致更多问题(我一直收到一个错误,Interval需要一个值在left哪里小于right,我想不通:我可能会在那里提交一个 GitHub 问题)。

我正在寻找一种优化方法,例如使用矢量化,但老实说,我不知道如何将其转换为矢量化形式。

这是我的数据示例:

0 投票
2 回答
407 浏览

python - 无法使用 fbprophet 拟合数据框,使用 dask 将 csv 读入数据框

参考:


需要注意的几点:

  • 我总共有 48GB 的​​内存

  • 这是我正在使用的库版本

    • Python 3.7.7
    • dask==2.18.0
    • fbprophet==0.6
    • 熊猫==1.0.3

我导入熊猫的原因仅适用于这一
pd.options.mode.chained_assignment = None
行当我使用 dask.distributed 时这有助于解决 dask 错误

所以,我有一个 21gb 的 csv 文件,我正在使用 dask 和 jupyter notebook 读取它......我试图从我的 mysql 数据库表中读取它,但是,内核最终崩溃了

我尝试了多种组合使用本地工作人员、线程和可用内存、可用 storage_memory 网络,甚至尝试完全不使用distributed。我也尝试过用 pandas 进行分块(不是上面提到的与 pandas 相关的行),但是,即使有分块,内核仍然崩溃......

我现在可以使用 dask 加载 csv,并应用一些转换,例如设置索引、添加 fbprophet 需要的列(名称)......但我仍然无法使用 计算数据帧df.compute(),因为这就是我为什么认为我收到了 fbprophet 的错误。在我使用适当的 dtypes 添加列 y 和 ds 后,我收到错误Truth of Delayed objects is not supported,我认为这是因为 fbprophet 期望数据帧不懒惰,这就是我尝试预先运行计算的原因。我还增加了客户端上的 ram 以允许它使用完整的 48gb,因为我怀疑它可能试图加载数据两次,但是,这仍然失败,所以很可能不是这种情况/不是不会导致问题。

除此之外,在 dask 的文档中还提到了 fbpropphet,用于将机器学习应用于数据帧,但是,我真的不明白为什么这不起作用......我还尝试了 modin 与 ray 和 dask,结果基本相同。

另一个问题...关于内存使用情况 distributed.worker - WARNING - Memory use is high but worker has no data to store to disk. Perhaps some other process is leaking memory? Process memory: 32.35 GB -- Worker memory limit: 25.00 GB ,我在分配客户端、读取 csv 文件以及对数据帧应用操作/转换时遇到此错误,但是分配的大小大于 csv 文件本身,所以这让我感到困惑.. .

我自己做了什么来尝试解决这个问题:-谷歌搜索当然没有找到任何东西:-/-多次询问不和谐的帮助频道-多次询问 IIRC 帮助频道

无论如何,非常感谢您对这个问题的任何帮助!!!先感谢您 :)

MCVE

0 投票
1 回答
6292 浏览

python - 错误:没有为 pandas==1.0.3 找到匹配的分布(来自 modin)

我正在尝试使用库的并行处理来加速我的代码modin

我尝试在我的 Windows 10 计算机上使用 dask 引擎来执行此操作,但它不起作用,我认为这是因为它仍在开发中。我读到您不能在 Windows 上使用 ray 引擎,因此我运行了一个简单的示例来检查该库如何在免费的 AWS Ubuntu 服务器上运行。

modin当我在成功安装包后尝试安装包时raypandas出现以下错误:

如果我在终端上键入pip3 install -vvv modin以获取我得到的日志:

我怎么解决这个问题?

我要运行以检查其工作原理的脚本是:

我想加快的脚本之一,只是改变import pandas as pdimport modin.pandas as pd是:

因为该文件夹有许多大的 csv 文件,需要几个小时才能找到解决方案。

另外,还有其他方法可以加快此代码的速度吗?

0 投票
1 回答
297 浏览

pyarrow - 如何从 pyarrow 或 pandas 加载 modin 数据帧

由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载,因此我使用 pyarrow 加载数据。

如果我知道想要将数据放入 Modin df 中进行并行计算,而无需写入和读取 csv?有没有办法直接从 pyarrow.Table 或至少从 pandas 数据框构造 Modin df?