我试图使用 DataBricks Spark XML 加载 XML 文件。我能够正确加载数据,但我需要更改其中一列的名称并将其作为单独的标签放在架构中。基本上,很少有标签需要生成为空值,而这些标签不会出现在数据中。(这些字段在 XSD 中)。
例子:-
root
First Tag
Element Name
Second Tag ( Tag To Change)
Tag3
Tag4
我需要更改为
root
First Tag
Element Name
Second Tag
Tag3
Tag4
Third Tag
Tag3
Tag4
我尝试了很多方法:-(我无法手动添加架构)。
- withColumn.-> (使用此选项,我可以添加一个新列,但在根级别,我需要将其添加到明确的层次结构中。)
- withColumnRenamed -> (这个选项不会改变任何东西)。
任何帮助表示赞赏!