我需要在我的 DASK 数据框中添加一列,该列应包含自动增量 ID。我知道如何在 Pandas 中执行此操作,因为我在 SO 上找到了 Pandas 解决方案,但我无法弄清楚如何在 DASK 中执行此操作。我最好的尝试是这样的,结果发现自动增量功能只为我的 100 行测试文件运行了两次,并且所有的 id 都是 2。
def autoincrement(self):
print('*')
self.report_line = self.report_line + 1
return self.report_line
self.df = self.df.map_partitions(
lambda df: df.assign(raw_report_line=self.autoincrement())
)
熊猫方式看起来像这样
df.insert(0, 'New_ID', range(1, 1 + len(df)))
或者,如果我可以获取特定 CSV 行的行号并将其添加到列中,那就太好了,在这个阶段,这似乎不太可能。