我已经创建了数据框,输入是这样的:
+-----------------------------------+
|value |
+-----------------------------------+
|1 PRE123 21 |
|2 TEST 32 |
|7 XYZ .7 |
+-----------------------------------+
在下面的元数据信息的基础上,我们需要拆分上面的数据框并创建一个新的数据框,具有列名称 id、name 和 class,它的开始和索引位置在这个 json 元数据中给出。
{
"columnName": "id",
"start": 1,
"end": 2
},
{
"columnName": "name",
"start": 5,
"end": 10
},
{
"columnName": "class",
"start": 20,
"end": 22
}
输出 :
+---+------+-----+
| id| name|class|
+---+------+-----+
| 1|PRE123| 21|
| 2| TEST| 32|
| 7| XYZ| .7|
+---+------+-----+
为了加载 df,我创建了列表:
list.+=(loadedDF.col("value").substr(fixedLength.getStart, (fixedLength.getEnd - fixedLength.getStart)).alias(fixedLength.getColumnName))
从这个列表中,我创建了数据框
var df: DataFrame = loadedDF.select(list: _*)
需要知道从元数据创建数据帧的顺序更好的方法。由于创建的列表会将所有数据带到驱动程序节点。