问题标签 [modin]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Modin 库在进行简单的 pandas 操作时抛出错误
我遇到了应该加速某些熊猫操作的 modin 库并开始对其进行测试。
虽然使用 read_csv 加载数据明显更快,但简单的条件表达式在纯 pandas 中完美运行,例如:
抛出许多错误:
回溯(最近一次通话最后):
这应该是一个简单的操作。是否有解决方法,或者我只是错过了加载以外的其他内容:
非常感谢!
python - 运行 Modin pandas 以加快我的 pandas 功能时出现错误。如何解决此问题?
ImportError: Please `pip install modin[ray] or modin[dask] to install an engine
python - 如何检查熊猫导入是 modin 还是 original
在进行一些 OLS 回归时,我发现它statsmodels.api.add_constant()
执行以下操作:
如果不是,它将被视为data
ndarray,因此您会丢失一些上下文信息(例如,作为回归变量名称的列名)。从 modin 导入 pandas 时,is_using_pandas()
上述返回False
.
可能statsmodels
需要将其添加modin
为受支持的选项,_is_using_pandas()
但现在,我想做类似的事情:
一个人会怎么写is_using_modin_pandas()
?
python - 使用 modin.pandas 应用更快的 pandas
尝试使用 modin.pandas 将所有内核用于此应用功能
它适用于默认的 pandas,但使用 modin 会引发此错误:
文章是 DataFrame 中名为“data”的文本列
python - Modin Pandas 和 Dask 除了挂起什么也不做
我试图破译为什么这只是挂在 modin 上并且适用于普通熊猫:
当我在 pandas 下运行它时,它执行,但由于曲线文件的大小(约 36.5MB 输入和约 395MB 输出)平均需要 87 秒,我希望 modin 可以缩短那个时间。交换到 Modin 时的脚本运行,但它只是坐着,不做任何事情。它甚至不给我
我不知道这是否应该出现在控制台中,但它没有。当我进入曲线时,脚本开始读取 csv。然后它就坐着。从不做任何其他事情。我怎样才能弄清楚发生了什么?
如果重要的话,操作系统是 Windows10。
python-poetry - 'modin' 的 ModuleNotFoundError 即使它是由诗歌安装的
在线import modin.pandas as modin_pd
我得到ModuleNotFoundError: No module named 'modin'
。我正在使用诗歌和 JupyterLab。如果在我输入的单元格中!poetry add modin
,我会ValueError
说Package modin is already present
。
所以它无法安装modin
,因为它已经安装但它也无法导入它。我缺少任何明显的解决方案吗?
pip freeze
命令也显示modin
已安装。我也尝试通过安装它,pip install
但绝对没有让我最终导入这个模块。
python - 如何优化这个熊猫可迭代
我有以下方法,我根据一组分层规则消除数据框中的重叠间隔:
这很好用,除了我正在迭代的数据帧每个都有超过 100K 行,所以这需要很长时间才能完成。我对%prun
在 Jupyter 中使用的各种方法进行了计时,似乎占用处理时间的方法是series.py:3719(apply)
...... 注意:我尝试使用modin.pandas
,但这会导致更多问题(我一直收到一个错误,Interval
需要一个值在left
哪里小于right
,我想不通:我可能会在那里提交一个 GitHub 问题)。
我正在寻找一种优化方法,例如使用矢量化,但老实说,我不知道如何将其转换为矢量化形式。
这是我的数据示例:
python - 无法使用 fbprophet 拟合数据框,使用 dask 将 csv 读入数据框
参考:
- https://examples.dask.org/applications/forecasting-with-prophet.html?highlight=prophet
- https://facebook.github.io/prophet/
需要注意的几点:
我总共有 48GB 的内存
这是我正在使用的库版本
- Python 3.7.7
- dask==2.18.0
- fbprophet==0.6
- 熊猫==1.0.3
我导入熊猫的原因仅适用于这一
pd.options.mode.chained_assignment = None
行当我使用 dask.distributed 时这有助于解决 dask 错误
所以,我有一个 21gb 的 csv 文件,我正在使用 dask 和 jupyter notebook 读取它......我试图从我的 mysql 数据库表中读取它,但是,内核最终崩溃了
我尝试了多种组合使用本地工作人员、线程和可用内存、可用 storage_memory 网络,甚至尝试完全不使用distributed
。我也尝试过用 pandas 进行分块(不是上面提到的与 pandas 相关的行),但是,即使有分块,内核仍然崩溃......
我现在可以使用 dask 加载 csv,并应用一些转换,例如设置索引、添加 fbprophet 需要的列(名称)......但我仍然无法使用 计算数据帧df.compute()
,因为这就是我为什么认为我收到了 fbprophet 的错误。在我使用适当的 dtypes 添加列 y 和 ds 后,我收到错误Truth of Delayed objects is not supported
,我认为这是因为 fbprophet 期望数据帧不懒惰,这就是我尝试预先运行计算的原因。我还增加了客户端上的 ram 以允许它使用完整的 48gb,因为我怀疑它可能试图加载数据两次,但是,这仍然失败,所以很可能不是这种情况/不是不会导致问题。
除此之外,在 dask 的文档中还提到了 fbpropphet,用于将机器学习应用于数据帧,但是,我真的不明白为什么这不起作用......我还尝试了 modin 与 ray 和 dask,结果基本相同。
另一个问题...关于内存使用情况
distributed.worker - WARNING - Memory use is high but worker has no data to store to disk. Perhaps some other process is leaking memory? Process memory: 32.35 GB -- Worker memory limit: 25.00 GB
,我在分配客户端、读取 csv 文件以及对数据帧应用操作/转换时遇到此错误,但是分配的大小大于 csv 文件本身,所以这让我感到困惑.. .
我自己做了什么来尝试解决这个问题:-谷歌搜索当然没有找到任何东西:-/-多次询问不和谐的帮助频道-多次询问 IIRC 帮助频道
无论如何,非常感谢您对这个问题的任何帮助!!!先感谢您 :)
MCVE
python - 错误:没有为 pandas==1.0.3 找到匹配的分布(来自 modin)
我正在尝试使用库的并行处理来加速我的代码modin
。
我尝试在我的 Windows 10 计算机上使用 dask 引擎来执行此操作,但它不起作用,我认为这是因为它仍在开发中。我读到您不能在 Windows 上使用 ray 引擎,因此我运行了一个简单的示例来检查该库如何在免费的 AWS Ubuntu 服务器上运行。
modin
当我在成功安装包后尝试安装包时ray
,pandas
出现以下错误:
如果我在终端上键入pip3 install -vvv modin
以获取我得到的日志:
我怎么解决这个问题?
我要运行以检查其工作原理的脚本是:
我想加快的脚本之一,只是改变import pandas as pd
的import modin.pandas as pd
是:
因为该文件夹有许多大的 csv 文件,需要几个小时才能找到解决方案。
另外,还有其他方法可以加快此代码的速度吗?
pyarrow - 如何从 pyarrow 或 pandas 加载 modin 数据帧
由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载,因此我使用 pyarrow 加载数据。
如果我知道想要将数据放入 Modin df 中进行并行计算,而无需写入和读取 csv?有没有办法直接从 pyarrow.Table 或至少从 pandas 数据框构造 Modin df?