“modin”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

293 浏览

python - Modin 库在进行简单的 pandas 操作时抛出错误

我遇到了应该加速某些熊猫操作的 modin 库并开始对其进行测试。

虽然使用 read_csv 加载数据明显更快，但简单的条件表达式在纯 pandas 中完美运行，例如：

抛出许多错误：

回溯（最近一次通话最后）：

这应该是一个简单的操作。是否有解决方法，或者我只是错过了加载以外的其他内容：

非常感谢！

2019-11-26T15:21:28.700

0 投票

2 回答

1836 浏览

python - 运行 Modin pandas 以加快我的 pandas 功能时出现错误。如何解决此问题？

ImportError: Please `pip install modin[ray] or modin[dask] to install an engine

python pandas dask modin

2019-12-24T23:23:20.757

0 投票

0 回答

88 浏览

python - 如何检查熊猫导入是 modin 还是 original

在进行一些 OLS 回归时，我发现它statsmodels.api.add_constant()执行以下操作：

如果不是，它将被视为datandarray，因此您会丢失一些上下文信息（例如，作为回归变量名称的列名）。从 modin 导入 pandas 时，is_using_pandas()上述返回False.

可能statsmodels需要将其添加modin为受支持的选项，_is_using_pandas()但现在，我想做类似的事情：

一个人会怎么写is_using_modin_pandas()？

python pandas numpy dask modin

2019-12-29T13:41:28.197

0 投票

1 回答

443 浏览

python - 使用 modin.pandas 应用更快的 pandas

尝试使用 modin.pandas 将所有内核用于此应用功能

它适用于默认的 pandas，但使用 modin 会引发此错误：

文章是 DataFrame 中名为“data”的文本列

python pandas nlp modin

2020-01-11T07:43:08.777

0 投票

0 回答

427 浏览

python - Modin Pandas 和 Dask 除了挂起什么也不做

我试图破译为什么这只是挂在 modin 上并且适用于普通熊猫：

当我在 pandas 下运行它时，它执行，但由于曲线文件的大小（约 36.5MB 输入和约 395MB 输出）平均需要 87 秒，我希望 modin 可以缩短那个时间。交换到 Modin 时的脚本运行，但它只是坐着，不做任何事情。它甚至不给我

我不知道这是否应该出现在控制台中，但它没有。当我进入曲线时，脚本开始读取 csv。然后它就坐着。从不做任何其他事情。我怎样才能弄清楚发生了什么？

如果重要的话，操作系统是 Windows10。

python pandas modin

2020-01-23T17:26:18.817

0 投票

1 回答

750 浏览

python-poetry - 'modin' 的 ModuleNotFoundError 即使它是由诗歌安装的

在线import modin.pandas as modin_pd我得到ModuleNotFoundError: No module named 'modin'。我正在使用诗歌和 JupyterLab。如果在我输入的单元格中!poetry add modin，我会ValueError说Package modin is already present。

所以它无法安装modin，因为它已经安装但它也无法导入它。我缺少任何明显的解决方案吗？

pip freeze命令也显示modin已安装。我也尝试通过安装它，pip install但绝对没有让我最终导入这个模块。

python-poetry modin

2020-02-26T21:12:37.257

0 投票

1 回答

49 浏览

python - 如何优化这个熊猫可迭代

我有以下方法，我根据一组分层规则消除数据框中的重叠间隔：

这很好用，除了我正在迭代的数据帧每个都有超过 100K 行，所以这需要很长时间才能完成。我对%prun在 Jupyter 中使用的各种方法进行了计时，似乎占用处理时间的方法是series.py:3719(apply)...... 注意：我尝试使用modin.pandas，但这会导致更多问题（我一直收到一个错误，Interval需要一个值在left哪里小于right，我想不通：我可能会在那里提交一个 GitHub 问题）。

我正在寻找一种优化方法，例如使用矢量化，但老实说，我不知道如何将其转换为矢量化形式。

这是我的数据示例：

python pandas optimization modin

2020-05-07T21:03:43.583

0 投票

2 回答

407 浏览

python - 无法使用 fbprophet 拟合数据框，使用 dask 将 csv 读入数据框

参考：

需要注意的几点：

我总共有 48GB 的内存
这是我正在使用的库版本
- Python 3.7.7
- dask==2.18.0
- fbprophet==0.6
- 熊猫==1.0.3

我导入熊猫的原因仅适用于这一
pd.options.mode.chained_assignment = None
行当我使用 dask.distributed 时这有助于解决 dask 错误

所以，我有一个 21gb 的 csv 文件，我正在使用 dask 和 jupyter notebook 读取它......我试图从我的 mysql 数据库表中读取它，但是，内核最终崩溃了

我尝试了多种组合使用本地工作人员、线程和可用内存、可用 storage_memory 网络，甚至尝试完全不使用distributed。我也尝试过用 pandas 进行分块（不是上面提到的与 pandas 相关的行），但是，即使有分块，内核仍然崩溃......

我现在可以使用 dask 加载 csv，并应用一些转换，例如设置索引、添加 fbprophet 需要的列（名称）......但我仍然无法使用计算数据帧df.compute()，因为这就是我为什么认为我收到了 fbprophet 的错误。在我使用适当的 dtypes 添加列 y 和 ds 后，我收到错误Truth of Delayed objects is not supported，我认为这是因为 fbprophet 期望数据帧不懒惰，这就是我尝试预先运行计算的原因。我还增加了客户端上的 ram 以允许它使用完整的 48gb，因为我怀疑它可能试图加载数据两次，但是，这仍然失败，所以很可能不是这种情况/不是不会导致问题。

除此之外，在 dask 的文档中还提到了 fbpropphet，用于将机器学习应用于数据帧，但是，我真的不明白为什么这不起作用......我还尝试了 modin 与 ray 和 dask，结果基本相同。

另一个问题...关于内存使用情况 distributed.worker - WARNING - Memory use is high but worker has no data to store to disk. Perhaps some other process is leaking memory? Process memory: 32.35 GB -- Worker memory limit: 25.00 GB ，我在分配客户端、读取 csv 文件以及对数据帧应用操作/转换时遇到此错误，但是分配的大小大于 csv 文件本身，所以这让我感到困惑.. .

我自己做了什么来尝试解决这个问题：-谷歌搜索当然没有找到任何东西：-/-多次询问不和谐的帮助频道-多次询问 IIRC 帮助频道

无论如何，非常感谢您对这个问题的任何帮助！！！先感谢您：）

MCVE

python pandas dask modin facebook-prophet

2020-06-08T14:03:04.610

0 投票

1 回答

6292 浏览

python - 错误：没有为 pandas==1.0.3 找到匹配的分布（来自 modin）

我正在尝试使用库的并行处理来加速我的代码modin。

我尝试在我的 Windows 10 计算机上使用 dask 引擎来执行此操作，但它不起作用，我认为这是因为它仍在开发中。我读到您不能在 Windows 上使用 ray 引擎，因此我运行了一个简单的示例来检查该库如何在免费的 AWS Ubuntu 服务器上运行。

modin当我在成功安装包后尝试安装包时ray，pandas出现以下错误：

如果我在终端上键入pip3 install -vvv modin以获取我得到的日志：

我怎么解决这个问题？

我要运行以检查其工作原理的脚本是：

我想加快的脚本之一，只是改变import pandas as pd的import modin.pandas as pd是：

因为该文件夹有许多大的 csv 文件，需要几个小时才能找到解决方案。

另外，还有其他方法可以加快此代码的速度吗？

python pandas parallel-processing ray modin

2020-07-16T12:58:21.567

0 投票

1 回答

297 浏览

pyarrow - 如何从 pyarrow 或 pandas 加载 modin 数据帧

由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载，因此我使用 pyarrow 加载数据。

如果我知道想要将数据放入 Modin df 中进行并行计算，而无需写入和读取 csv？有没有办法直接从 pyarrow.Table 或至少从 pandas 数据框构造 Modin df？

pyarrow modin

2020-09-02T12:23:44.823

问题标签 [modin]

Reference