apache-spark-xml - Spark-xml：无法读取具有属性的元素的值

翻译自：https://stackoverflow.com/questions/71336838 2022-03-03T11:59:31.973

6 次

我正在尝试使用 Spark-xml 读取链接https://www.dropbox.com/s/yg66o0tfwipx3mu/PMC1249490.xml?dl=0中的 xml 文件

这是一篇研究文章，我对摘要中的文字感兴趣。似乎整个 xml 文件的架构被正确推断，但抽象元素缺少文本数据。它显示属性值（称为 P1）和括号中的单词。谁能帮我？

下面是我正在使用的代码：

import pandas as pd
from pyspark.sql import SparkSession
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.13.0 pyspark-shell'
spark = SparkSession.builder.appName("XML_Import").master("local[*]").getOrCreate()
df = spark.read.format('xml').options(rowTag="front").load('PMC1249490.xml')
df.select("article-meta.abstract").show(truncate=False)

+-------------------------------------------------+
|abstract                                         |
+-------------------------------------------------+
|{{P1, [Dictyostelium discoideum, D. discoideum]}}|
+-------------------------------------------------+

apache-spark-xml - Spark-xml：无法读取具有属性的元素的值

0 回答 0

Related

Reference