开始使用 spark 我想知道如何flatmap
使用explode
数据框。
它是使用创建df.groupBy("columName").count
的,如果我收集它,它具有以下结构:
[[Key1, count], [Key2, count2]]
但我宁愿有类似的东西
Map(bar -> 1, foo -> 1, awesome -> 1)
实现这样的目标的正确工具是什么?平面图,爆炸还是其他?
上下文:我想使用 spark-jobserver。如果我以后一种形式提供数据,它似乎只提供有意义的结果(例如,有效的 json 序列化)