我在 hive 中有一个表,其中包含两列 id(int) 和 xml_column(string)。xml_column 实际上是一个 xml,但它存储为字符串。
+------+--------------------+
| id | xml_column |
+------+--------------------+
| 6723 |<?xml version="1....|
| 6741 |<?xml version="1....|
| 6774 |<?xml version="1....|
+------+--------------------+
我的问题是:我想解析这个 xml 并使用 spark (scala) 拆分为模式格式。谁能帮我解决这个问题?尝试过数据砖火花 xml 库,但该库处理 xml 文件。
或者有什么方法可以将此字符串列转换为 json,我有一个可以处理这个的 json 解析器。