我正在尝试使用 pyspark 数据框,我想知道如何使用现有列创建和填充新列。
假设我有一个如下所示的数据框:
+-----+---+---+
| _1| _2| _3|
+-----+---+---+
|x1-y1| 3| z1|
|x2-y2| 2| z2|
|x3-y3| 1| z3|
+-----+---+---+
我正在寻找创建如下数据框的方法:
+-----+---+---+----+--------+
| _1| _2| _3| _4| _5|
+-----+---+---+----+--------+
|x1-y1| 3| z1|x1y1|x1=y1=z1|
|x2-y2| 2| z2|x2y2|x2=y2=z2|
|x3-y3| 1| z3|x3y3|x3=y3=z3|
+-----+---+---+----+--------+
_4 只是从 _1 中删除了“-”,而 _5 使用了 _1 和 _3 中的值
- 我正在使用 spark-2.3.3 和 python 2.7
谢谢!