我想在 pyspark 1.4 中获取聚合函数中的列值列表。collect_list
不可用。有没有人有建议怎么做?
原始列:
ID, date, hour, cell
1, 1030, 01, cell1
1, 1030, 01, cell2
2, 1030, 01, cell3
2, 1030, 02, cell4
我想要像下面这样的输出,groupby (ID, date, hour)
ID, date, hour, cell_list
1, 1030, 01, cell1, cell2
2, 1030, 01, cell3
2, 1030, 02, cell4
但我的 pyspark 在 1.4.0 中,collect_list
不可用。我做不到:
df.groupBy("ID","date","hour").agg(collect_list("cell"))
。