我正在使用 microsoft.spark 版本 1.0.0 来处理从网络接收到的 parquet 文件。我已将镶木地板文件映射到 Dataframe 中,并且我试图从存储为电子邮件地址的 userid 列中删除别名(用户 testuser 保存为 testuser@gmail.com)。似乎无法弄清楚如何将 Column 变成一个可枚举的并且没有内置的方法来迭代该列。任何指针都会有所帮助
dataframe.WithColumn("alias", ExtractAlias(dataframe["userid"]))
ExtractAlias(Column userID_column){need to iterate over the column to extract out the user alias}