我正在尝试在 PySpark 的 Azure Databricks Notebook 中读取 xml 文件。问题是我的persons.xml 一开始就有一些评论。我只想在阅读文件时忽略它们。
df = spark.read
.format("com.databricks.spark.xml")
.option("rowTag", "person")
.xml("src/main/resources/persons.xml")
我的 XML 如下所示:
<?xml version="1.0" encoding="UTF-8"?>
<!--
<top>
<t1 attr1="a1">
<!-- t1 comment -->
<t2>Something 1</t2>
</t1>
<!-- between rows comment -->
<t1 attr1="a2">
<t2>Something 2</t2>
</t1>
</top>
-->
<naman>
<t1 attr1="a1">
<t2>Something 1</t2>
</t1>
<t1 attr1="a2">
<t2>Something 2</t2>
</t1>
</naman>