python - 如何在python中执行去重？

翻译自：https://stackoverflow.com/questions/69909696 2021-11-10T08:06:50.653

33 次

我有一个数据框。现在我想按一列分区，按一列降序排序。虽然我知道如何使用 sql 在 Pyspark 中执行此操作，但不清楚在 python 中执行此操作。我的 pyspark 代码如下：-

df= Name    age
    Ram     20
    geet    16
    ram     50
    geet    15
    tom     21
    hary    25
    tom     36

partition_col=['Name']
arrange_col =['age']
df= df.select("*",F.row_number().over(Window.partitionBy(partition_col).orderBy(*[F.desc(c) for c in arrange_col ])).alias("Value"))

this gives me:-
df=
    +----+---+-----+
    |Name|age|Value|
    +----+---+-----+
    | Ram| 20|    1|
    |geet| 16|    1|
    |geet| 15|    2|
    |hary| 25|    1|
    | ram| 50|    1|
    | tom| 36|    1|
    | tom| 21|    2|
    +----+---+-----+

现在我想要在 python 中也一样。我该如何编码： -

df.select("*",F.row_number().over(Window.partitionBy(partition_col).orderBy(*[F.desc(c) for c in arrange_col ])).alias("Value"))

进入蟒蛇？因为没有选择window.partitonBy

python - 如何在python中执行去重？

0 回答 0

Related

Reference