我正在尝试解析一个具有处理指令的 XML 文件,使用databricks
spark-xml
. 示例 XML
<books>
<?SOURCE sample_file?>
<?DATE 12/01/2022?>
<book>
<title>Spark Tutorial</title>
<desc>Spark Tutorial for beginners</desc>
<author>John C</author>
<details>
<price>1234</price>
<pagecount>1000</pagecount>
<chapters>
<chapter>C1</chapter>
<chapter>C2</chapter>
<chapter>C3</chapter>
</chapters>
</details>
</book>
<book>
<title>Scala</title>
<desc>Scala Tutorial for beginners</desc>
<author>John C</author>
<details>
<price>599</price>
<pagecount>1000</pagecount>
<chapters>
<chapter>C10</chapter>
<chapter>C20</chapter>
<chapter>C30</chapter>
</chapters>
</details>
</book>
</books>
有没有办法解析那些 XML 处理指令SOURCE
& DATE
?我可以读取其他 XML 标记值,但无法读取处理指令。
我尝试使用lxml
库并能够阅读处理说明,但无法使用spark-xml
库执行相同的操作。
提前致谢