dask - 修改 dask 数据帧的安全且高效的方法

Question

作为数据工作流的一部分，我需要修改 dask 数据框列子集中的值，并将结果传递给进一步计算。特别是，我对 2 种情况感兴趣：映射列和映射分区。推荐的安全和高效的数据处理方式是什么？我在每个主机上有多个工作进程的集群上运行它的分布式设置。

情况1。

我想跑：

res = dataframe.column.map(func, ...)

这会返回一个数据系列，所以我假设原始数据框没有被修改。将列分配回数据框是否安全，例如dataframe['column']=res？可能不是。我是否应该使用.copy()进行复制，然后将结果分配给它，例如：

dataframe2 = dataframe.copy()
dataframe2['column'] = dataframe.column.map(func, ...)

还有其他推荐的方法吗？

案例2

我需要映射数据框的分区：

df.map_partitions(mapping_func, meta=df)

在mapping_func()内部，我想修改所选列中的值，方法是使用partition[column].map或简单地创建一个列表理解。同样，如何安全地修改分区并从映射函数中返回它？

映射函数接收的分区是 Pandas 数据帧（原始数据的副本？），但是在就地修改数据时，我看到了一些崩溃（虽然没有异常/错误消息）。打电话也是一样partition.copy(deep=False)，没用。分区是否应该被深度复制然后就地修改？或者我应该总是从新的/映射的列数据和原始/未修改的系列/列中构建一个新的数据框？

score 4 · Accepted Answer

您可以安全地修改 dask.dataframe

支持以下操作且安全

df['col'] = df['col'].map(func)

这会就地修改任务图，但不会就地修改数据（假设函数func创建了一个新系列）。

您不能安全地修改分区

当您使用修改熊猫数据框的函数时，您的第二种情况map_partitions是不安全的。Dask 希望能够重用数据，必要时调用两次函数等。如果您有这样的函数，那么您应该首先在该函数中创建 Pandas 数据帧的副本。

dask - 修改 dask 数据帧的安全且高效的方法

1 回答 1

您可以安全地修改 dask.dataframe

您不能安全地修改分区

Related

Reference