我有一个 pyspark 数据框:
number | matricule
--------------------------------------------
1 | ["AZ 1234", "1234", "00100"]
--------------------------------------------
23 | ["1010", "12987"]
--------------------------------------------
56 | ["AZ 98989", "22222", "98989"]
--------------------------------------------
在matricule数组中,如果我删除AZ字符串,我会有重复的值。我想删除字符串然后删除 数组"AZ"中的重复值。matricule知道有时我后面有一个空格AZ,我也应该删除它。
我做了一个udf:
def remove_AZ(A)
for item in A:
if item.startswith('AZ'):
item.replace('AZ','')
udf_remove_AZ = F.udf(remove_AZ)
df = df.withColumn("AZ_2", udf_remove_AZ(df.matricule))
我在所有AZ_2列中都为空。
如何从matricule数组中的每个值中删除 AZ,然后删除里面的重复项?谢谢