0

我有一个数据框'df',我想添加一个值是连续的'Ident'数字列。我尝试使用 monotonically_increasing_id() 但值不连续。正如其描述所说:“生成的 ID 保证单调递增且唯一,但不连续。”

所以,我的问题是,我该怎么做?

4

1 回答 1

1

你可以试试这样的

df = df.rdd.zipWithIndex().map(lambda x: [x[1]] + [y for y in x[0]]).toDF(['Ident']+df.columns)

这将为您提供第一列作为您的标识符,它将具有从 0 到 N-1 的连续值,其中 N 是 df 中的记录总数。

于 2017-10-05T13:26:31.223 回答