我想从特定列(purch_location)中的所有值中删除空格。我使用的是 spark 表,而不是数据框或 SQL 表(但如果需要,我可以使用数据框或 SQL 表)。
这是我的火花表的生成方式:
dataset = spark.table("trans")
cols = dataset.columns
dataset.show(5)
+----------+-------------+-------+--------------------+--------------+---+---+
|purch_date| purch_class|tot_amt| serv-provider|purch_location| id| y|
+----------+-------------+-------+--------------------+--------------+---+---+
|06/11/2017| Printing| -0.66| CARDS AND POCKETS| | 0| 0|
|03/11/2017|Uncategorized| -17.53| HOVER | | 1| 0|
|02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 2| 1|
|31/10/2017|Gasoline/Fuel| -20.0| ESSO | | 3| 0|
|31/10/2017| Travel| -9.0|TORONTO PARKING A...| TORONTO | 4| 0|
+----------+-------------+-------+--------------------+--------------+---+---+
我尝试了以下函数pyspark.sql.functions import regexp_replace
from pyspark.sql.functions import regexp_replace
dataset1=dataset.select(regexp_replace(col("purch_location"),"\\s+",""))
这会在列中的值之后而不是之前删除空格。它也摆脱了我想保留的其他专栏。
+-------------------------------------+
|regexp_replace(purch_location, \s+, )|
+-------------------------------------+
| |
| |
| BRAMPTON|
| |
| TORONTO|
| |
| BRAMPTON|
| BRAMPTON|
| |
| null|
| MISSISSAUGA|
| |
| BRAMPTON|
知道如何解决这个问题吗?提前致谢。