如何在所有分区的 dsak cudf 数据帧中创建唯一 id 列到目前为止,我正在使用以下技术,但如果我将数据增加到超过 10cr 行,则会出现内存错误。
def unique_id(df):
rag = cupy.arrange(len(df))
df['unique_id']=rag
return df
part = data.npartitions
data = data.repartitions(npartitions=1)
cols_meta={c:str(data[c].dtype) for c in data.columns}
data = data.map_partitions(lambda df:unique_id(df), meta={**cols_meta,'unique_id'})
data = data.repartitions(npartitions=part)
如果有其他方法,或者代码有任何修改,请提出建议。谢谢你的帮助