我目前正在使用 Pandas 处理一个大型数据集,我必须使用pandas.Series.str.extract
. 它看起来像这样:
df['output_col'] = df['input_col'].str.extract(r'.*"mytag": "(.*?)"', expand=False).str.upper()
但是,它运行良好,因为它必须执行大约十次(使用各种源列),性能不是很好。为了通过使用多个内核来提高性能,我想尝试 Dask,但它似乎不受支持(我在 dask 的文档中找不到对提取方法的任何引用)。
有没有办法并行执行这样的 Pandas 动作?我发现了这种方法,您基本上将数据帧拆分为多个数据帧,为每个子帧创建一个进程,然后将它们连接回来。