我正在使用 AWS Glue 转换一组数据,这些数据基于一个列的值具有多行。我正在尝试旋转数据并减少行数。
我相信我可以为此使用 Amazon Glue。但是,这是我第一次使用 Glue。我正在努力寻找一个好的方法来做到这一点。一些 pySpark 扩展转换看起来很有希望(可能是“映射”或“关系化”)。什么是好方法?
例如 :
primary_key|key|value
12345|is_male|1
12345|is_college_educated|0
至
primary_key|is_male|is_college_educated
12345|1|0