0

我正在使用 microsoft.spark 版本 1.0.0 来处理从网络接收到的 parquet 文件。我已将镶木地板文件映射到 Dataframe 中,并且我试图从存储为电子邮件地址的 userid 列中删除别名(用户 testuser 保存为 testuser@gmail.com)。似乎无法弄清楚如何将 Column 变成一个可枚举的并且没有内置的方法来迭代该列。任何指针都会有所帮助

dataframe.WithColumn("alias", ExtractAlias(dataframe["userid"]))
ExtractAlias(Column userID_column){need to iterate over the column to extract out the user alias}
4

1 回答 1

1
using Microsoft.Spark.Sql;

dataframe.WithColumn("alias", Functions.split(Functions.col("userid"), "@").GetItem(0))
于 2020-12-04T07:15:10.643 回答