我有一个如下的数据框
In [94]: prova_df.show()
order_item_order_id order_item_subtotal
1 299.98
2 199.99
2 250.0
2 129.99
4 49.98
4 299.95
4 150.0
4 199.92
5 299.98
5 299.95
5 99.96
5 299.98
我想做的是为第一列的每个不同值计算第二列对应值的总和。我尝试使用以下代码执行此操作:
from pyspark.sql import functions as func
prova_df.groupBy("order_item_order_id").agg(func.sum("order_item_subtotal")).show()
这给出了一个输出
SUM('order_item_subtotal)
129.99000549316406
579.9500122070312
199.9499969482422
634.819995880127
434.91000747680664
我不太确定它是否做对了。为什么它不显示第一列的信息?提前感谢您的回答