0

我正在使用带有初始化 4 个内核的 pandasallel 包在 pandas 数据帧上运行应用函数。但不幸的是,进程 os 甚至没有处理单个记录。与没有 Pandarallel 并行功能的情况相同,需要 3 分钟才能完成该过程。

在 1000 条记录数据帧上运行实验。实际上我有 200 万个数据集,这就是我正在研究 pandarallel 的地方。

附上相同的屏幕截图

在此处输入图像描述

数据集的大小为 6 MB,RAM 为 16 GB。这种僵局情况可能是什么问题?

4

1 回答 1

0

Jupyter中存在问题multiprocessing。尝试将您的代码作为脚本或在 ipython 控制台中运行。如果它有效,那么您可以将代码放在一个单独的文件中,然后将该函数导入您的 jupyter notebook。

# separatefile.py

def multiprocessing_function(params):

在木星

from separatefile import multiprocessing_function

multiprocessing_function(params)
于 2020-04-20T15:55:00.510 回答