我正在使用 pyspark 数据框,目的是获取可以在多个列中的变量的计数。编写了一个 sql 查询来获取此信息,但无法将其翻译为数据帧。
鉴于以下数据框,需要获取 Col1、Col2 中“Foo”、“Bar”、“Air”的计数。
+----------+----+-----+
| ID |Col1|Col2 |
+----------+----+-----+
|2017-01-01| Air| Foo |
|2017-01-02| Foo| Bar|
|2017-01-03| Bar| Air |
|2017-01-04| Air| Foo|
|2017-01-09| Bar| Foo|
|2017-01-01|Foo | Bar|
|2017-01-02|Bar | Air|
|2017-01-01|Foo | Air|
|2017-01-02|Foo | Air|
+----------+----+-----+
预期产出
+-------+-----+
|Var . |Count|
+-------+-----+
| Foo| 7 |
| Air| 6 |
| Bar| 5 |
+-------+-----+