我有一个数据框。现在我想按一列分区,按一列降序排序。虽然我知道如何使用 sql 在 Pyspark 中执行此操作,但不清楚在 python 中执行此操作。我的 pyspark 代码如下:-
df= Name age
Ram 20
geet 16
ram 50
geet 15
tom 21
hary 25
tom 36
partition_col=['Name']
arrange_col =['age']
df= df.select("*",F.row_number().over(Window.partitionBy(partition_col).orderBy(*[F.desc(c) for c in arrange_col ])).alias("Value"))
this gives me:-
df=
+----+---+-----+
|Name|age|Value|
+----+---+-----+
| Ram| 20| 1|
|geet| 16| 1|
|geet| 15| 2|
|hary| 25| 1|
| ram| 50| 1|
| tom| 36| 1|
| tom| 21| 2|
+----+---+-----+
现在我想要在 python 中也一样。我该如何编码: -
df.select("*",F.row_number().over(Window.partitionBy(partition_col).orderBy(*[F.desc(c) for c in arrange_col ])).alias("Value"))
进入蟒蛇?因为没有选择window.partitonBy