我想为可能发生变化的数据框生成顺序唯一 ID。当我说更改时,这意味着在我今天生成 ID 之后明天将添加更多行数。当添加更多行时,我想查找具有生成的 id 的 id 列,并为新添加的数据增加
+-------+--------------------+-------------+
|deal_id| deal_name|Unique_id |
+-------+--------------------+--------------
| 613760|ABCDEFGHI | 1|
| 613740|TEST123 | 2|
| 598946|OMG | 3|
假设我明天获得更多数据,我想将相同的数据附加到这个数据帧,并且唯一 id 应该增加到 4 并继续。
+-------+--------------------+-------------+
|deal_id| deal_name|Unique_id |
+-------+--------------------+--------------
| 613760|ABCDEFGHI | 1|
| 613740|TEST123 | 2|
| 598946|OMG | 3|
| 591234|OM21 | 4|
| 988217|Otres | 5|
.
.
.
代码片段
deals_df_final = deals_df.withColumn("Unique_id",F.monotonically_increasing_id())
但这并没有给出顺序 ID。
我可以尝试使用索引的 row_num 和 RDD zip,但看起来数据框将是不可变的。
请问有什么帮助吗?我希望能够在添加数据时生成并增加 id。