dask - 如何使用 Dask 使用所有的 cpu 内核？

Question

我有一个超过 35000 行的熊猫系列。我想使用 dask 使其更高效。但是，我的 dask 代码和 pandas 代码都花费了相同的时间。最初“ser”是熊猫系列，而fun1和fun2是在系列的各个行中执行模式匹配的基本函数。

熊猫：

ser = ser.apply(fun1).apply(fun2)

黎明：

ser = dd.from_pandas(ser, npartitions = 16)
ser = ser.apply(fun1).apply(fun2)

在检查 cpu 核心的状态时，我发现并不是所有的核心都被使用了。只有一个核心习惯了 100%。

有什么方法可以使用 dask 使系列代码更快，或者在串联执行 Dask 操作时利用 cpu 的所有内核？

score 22 · Accepted Answer

您调用的函数很可能是纯 python，因此声明了 GIL，即确保在线程中一次只执行一条 python 指令的锁。在这种情况下，您将需要在单独的进程中运行您的函数以查看任何并行性。您可以通过使用多进程调度程序来做到这一点

ser = ser.apply(fun1).apply(fun2).compute(scheduler='processes')

或者使用分布式调度程序（在单台机器上运行良好，并且实际上带有一些下一代的好处，例如状态仪表板）；在最简单的默认情况下，创建一个客户端就足够了：

client = dask.distributed.Client()

但你应该阅读文档

1 回答 1