我最近发现dask模块旨在成为一个易于使用的 python 并行处理模块。对我来说最大的卖点是它适用于熊猫。
在其手册页上阅读了一些内容后,我找不到一种方法来完成这个微不足道的可并行化任务:
ts.apply(func) # for pandas series
df.apply(func, axis = 1) # for pandas DF row apply
目前,为了实现这一目标,AFAIK,
ddf.assign(A=lambda df: df.apply(func, axis=1)).compute() # dask DataFrame
这是丑陋的语法,实际上比完全慢
df.apply(func, axis = 1) # for pandas DF row apply
有什么建议吗?
编辑:感谢@MRocklin 的地图功能。它似乎比普通熊猫应用要慢。这与熊猫 GIL 发布问题有关还是我做错了?
import dask.dataframe as dd
s = pd.Series([10000]*120)
ds = dd.from_pandas(s, npartitions = 3)
def slow_func(k):
A = np.random.normal(size = k) # k = 10000
s = 0
for a in A:
if a > 0:
s += 1
else:
s -= 1
return s
s.apply(slow_func) # 0.43 sec
ds.map(slow_func).compute() # 2.04 sec