我相信我在 Dask 教程之一中看到了有关如何使用 Dask 框架中尚未实现的 Pandas 函数的建议,但在使用 Dask 数据帧时,我似乎放错了地方。例如,我想使用 Pandas 函数“ewm”。
作为一种解决方法,我将我的 Dask 数据帧转换为 Pandas 数据帧,在 Pandas 数据帧上运行 ewm,然后将它们转换回 Dask,以便以后进行更多内存密集型操作。不是最有效的。
有没有更好的策略呢?
我相信我在 Dask 教程之一中看到了有关如何使用 Dask 框架中尚未实现的 Pandas 函数的建议,但在使用 Dask 数据帧时,我似乎放错了地方。例如,我想使用 Pandas 函数“ewm”。
作为一种解决方法,我将我的 Dask 数据帧转换为 Pandas 数据帧,在 Pandas 数据帧上运行 ewm,然后将它们转换回 Dask,以便以后进行更多内存密集型操作。不是最有效的。
有没有更好的策略呢?
您可以使用各种较低级别的通用函数来构建 Dask Dataframe 函数map_partitions
,例如自定义聚合、滚动等。
这里有更多信息:https ://docs.dask.org/en/latest/best-practices.html#learn-techniques-for-customization