我正在尝试做一些看起来非常简单但不知怎么用 pyspark 做的事情。
我有一个带有两列的df(为了简化)'id'和'strcol',可能有重复的id
我想做一个 df.groupBy('id') ,它将为每个 id 返回 strcol 值的数组
简单的例子:
|--id--|--strCol--|
| a | {'a':1} |
| a | {'a':2} |
| b | {'b':3} |
| b | {'b':4} |
|------|----------|
would become
|--id--|-------aggsStr------|
| a | [{'a':1},{'a':2}] |
| b | [{'b':3},{'b':4}] |
|------|--------------------|
我尝试将 apply 与 pandas udf 一起使用,但它似乎拒绝返回数组。(或者也许我没有正确使用它)