0

我正在尝试使用 Spark-xml 读取链接https://www.dropbox.com/s/yg66o0tfwipx3mu/PMC1249490.xml?dl=0中的 xml 文件

这是一篇研究文章,我对摘要中的文字感兴趣。似乎整个 xml 文件的架构被正确推断,但抽象元素缺少文本数据。它显示属性值(称为 P1)和括号中的单词。谁能帮我?

下面是我正在使用的代码:

import pandas as pd
from pyspark.sql import SparkSession
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.13.0 pyspark-shell'
spark = SparkSession.builder.appName("XML_Import").master("local[*]").getOrCreate()
df = spark.read.format('xml').options(rowTag="front").load('PMC1249490.xml')
df.select("article-meta.abstract").show(truncate=False)

+-------------------------------------------------+
|abstract                                         |
+-------------------------------------------------+
|{{P1, [Dictyostelium discoideum, D. discoideum]}}|
+-------------------------------------------------+
4

0 回答 0