0

我想将一行附加到 dask 数据帧中的特定分区。我尝试了很多方法,但没有一个是可行的。谁可以帮我这个事。提前致谢

我试过了 -

first_partition = df.partitions[0]
new_dd = first_partiton.append(row)
df.partitions[0] = new_dd

这不起作用

我什至尝试使用 map_partitions(),但即使是这个函数也不能真正帮助获取分区的元数据来修改特定的分区。

是否可以将数据框保存为镶木地板并仅修改特定的镶木地板文件并将其保存回来?- 我试过这个,即使这似乎不起作用。

4

1 回答 1

0

使用map_partitions您可以修改该特定分区。

然后通过切换到延迟对象来替换数据帧中修改的分区来创建一个新帧,将延迟对象替换到列表中,然后切换回 dask 数据帧。


def append_row_dict(df, row_dict):
    small_df = pd.DataFrame(row_dict)
    return df.append(small_df)
    
p_df = pd.DataFrame({'a':np.arange(0,10)})

dask_df = dd.from_pandas(p_df,npartitions=4)
part_to_change = 1

new_partion = dask_df.get_partition(part_to_change).map_partitions(append_row_dict,{'a':[-1]})
list_of_delayed = dask_df.to_delayed()

## we only have 1 delayed object for 1 partition
assert new_partion.npartitions==1
list_of_delayed[part_to_change]=new_partion.to_delayed()[0]

new_dask_df = dd.from_delayed(list_of_delayed, meta=dask_df._meta)
new_dask_df.get_partition(part_to_change).compute()
    a
3   3
4   4
5   5
0   -1
于 2021-01-07T14:46:51.073 回答