我正在使用 Scala 在 Spark 2.3 中进行一些特征工程。
我在 Spark DataFrame 的一列中有 IP 地址,看起来像
然后我用来data.groupBy("ip").count()
获取每个 IP 地址的频率列表。这看起来像
现在我想将这些频率中的每一个映射到原始数据帧。我会在哪里
ip | freq |
-- | |
123 | 3 |
567 | 7 |
857 | 10 |
123 | 3 |
解决此类问题的有效方法是什么?