我有一个超过 35000 行的熊猫系列。我想使用 dask 使其更高效。但是,我的 dask 代码和 pandas 代码都花费了相同的时间。最初“ser”是熊猫系列,而fun1和fun2是在系列的各个行中执行模式匹配的基本函数。
熊猫:
ser = ser.apply(fun1).apply(fun2)
黎明:
ser = dd.from_pandas(ser, npartitions = 16)
ser = ser.apply(fun1).apply(fun2)
在检查 cpu 核心的状态时,我发现并不是所有的核心都被使用了。只有一个核心习惯了 100%。
有什么方法可以使用 dask 使系列代码更快,或者在串联执行 Dask 操作时利用 cpu 的所有内核?