12

我有一个超过 35000 行的熊猫系列。我想使用 dask 使其更高效。但是,我的 dask 代码和 pandas 代码都花费了相同的时间。最初“ser”是熊猫系列,而fun1fun2是在系列的各个行中执行模式匹配的基本函数。

熊猫:

ser = ser.apply(fun1).apply(fun2)

黎明:

ser = dd.from_pandas(ser, npartitions = 16)
ser = ser.apply(fun1).apply(fun2)

在检查 cpu 核心的状态时,我发现并不是所有的核心都被使用了。只有一个核心习惯了 100%。

有什么方法可以使用 dask 使系列代码更快,或者在串联执行 Dask 操作时利用 cpu 的所有内核?

4

1 回答 1

22

http://dask.pydata.org/en/latest/scheduler-overview.html

您调用的函数很可能是纯 python,因此声明了 GIL,即确保在线程中一次只执行一条 python 指令的锁。在这种情况下,您将需要在单独的进程中运行您的函数以查看任何并行性。您可以通过使用多进程调度程序来做到这一点

ser = ser.apply(fun1).apply(fun2).compute(scheduler='processes')

或者使用分布式调度程序(在单台机器上运行良好,并且实际上带有一些下一代的好处,例如状态仪表板);在最简单的默认情况下,创建一个客户端就足够了:

client = dask.distributed.Client()

但你应该阅读文档

于 2018-07-09T12:25:43.070 回答