xml - 在 Pyspark Databricks 中读取 XML 文件时如何忽略注释？

Question

我正在尝试在 PySpark 的 Azure Databricks Notebook 中读取 xml 文件。问题是我的persons.xml 一开始就有一些评论。我只想在阅读文件时忽略它们。

df = spark.read
      .format("com.databricks.spark.xml")
      .option("rowTag", "person")
      .xml("src/main/resources/persons.xml")

我的 XML 如下所示：

        <?xml version="1.0" encoding="UTF-8"?>
    <!-- 
<top>
       <t1 attr1="a1">
          <!-- t1 comment -->
          <t2>Something 1</t2>
       </t1>
       <!-- between rows comment -->
       <t1 attr1="a2">
          <t2>Something 2</t2>
       </t1>
    </top> 
    --> 
        <naman>
           <t1 attr1="a1">
              <t2>Something 1</t2>
           </t1>
           <t1 attr1="a2">
              <t2>Something 2</t2>
           </t1>
        </naman>

score 0 · Accepted Answer

默认情况下会忽略注释，如果您看到它们，那就奇怪了。例如，如果我有以下 XML 文件：

<!-- top comment -->
<top>
  <t1 attr1="a1">
    <!-- t1 comment -->
    <t2>Something 1</t2>
  </t1>
  <!-- between rows comment -->
  <t1 attr1="a2">
    <t2>Something 2</t2>
  </t1>
</top>

那么它可以被解读为，并且没有评论被捕获：

>>> df = spark.read.format("com.databricks.spark.xml") \
  .option("rowTag", "t1").load("1.xml")
>>> df.show()
+------+-----------+
|_attr1|         t2|
+------+-----------+
|    a1|Something 1|
|    a2|Something 2|
+------+-----------+

xml - 在 Pyspark Databricks 中读取 XML 文件时如何忽略注释？

1 回答 1

Related

Reference