我有一个包含两列“a”和“b”的火花数据框。
例如,一个数据条目是:
{"firstname" : {"s":"john"},
"secondname":{"s":"cena"} }
我想通过连接名称来添加一列,因此该条目是:
{"firstname" : {"s":"john"},
"secondname":{"s":"cena"},
"fullname" :
{"s" : "john cena"}
}
我使用过 UDF,但它对于大数据来说是一种低效的解决方案,并且充当了优化的黑匣子。有没有办法通过使用 PySpark 函数或 SQL 查询来实现结果。