问题标签 [apache-spark-xml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
38 浏览

python - 在 pyspark 中分解简单的 XML 文件(不使用数据块)

我有一个 XML 文件,如下所示:

我怎样才能炸开面糊和浇头并将其压平成表格格式?

0 投票
1 回答
59 浏览

apache-spark - 将 Apache Spark xml 从 2.11 迁移到 2.12 会给出以下警告。如何直接使用 xmlReader

代码:

警告:类 XmlDataFrameReader 中的方法 xml 已弃用(自 0.13.0 起):直接使用 XmlReader .xml(df.select("payload").map(x => x.getString(0)))

0 投票
0 回答
68 浏览

xml - 火花-XML;在读取时使用显式模式从 S3 读取。XML中的数组类型问题

我正在尝试通过 Scala Spark API ( https://github.com/databricks/spark-xml ) 访问 spark-xml 库,以便从 S3 读取大量 XML 文件。

  • S3 中跨 XML 文件的架构不同,因此简单地一次读取它们会导致某些字段在读取时损坏。我相信这是由于 XML 文件之间的架构不一致,这在很大程度上是相同的架构
  • 因此,我指定要在模式对象中显式提取的标签
  • 当涉及到数组类型时,我对用于定义架构的语法有疑问。
  • 您可以在下面看到 XML 的架构。出于这个问题的目的,我只是想提取以下内容:
    • _ProgramInfoID
    • _VALUE(包含在数组类型对象 Line 中)

感谢这里的任何反馈!

以下代码示例仅提取_ProgramInfoID字段

以下尝试同时读取ProgramInfoID 和 _VALUE,但在尝试定义架构对象时遇到错误

错误:

我意识到这是一个语法错误,但我无法找到关于如何将下面看到的模式转换为涉及 Spark 类型(如 ArrayType、StructField 和 StructType)的模式的良好文档。

涉及 XML 中数组类型对象的相关问题: spark 中用于 xml 处理的复杂自定义模式

但是,我无法使用那里的解决方案解决这个问题。

XML 示例数据模式

我很感激这里的任何帮助,谢谢!

0 投票
2 回答
315 浏览

apache-spark - 为什么在 Spark 中重新分区比 partitionBy 快?

我正在尝试将 Spark 用于一个非常简单的用例:给定大量文件(90k),其中包含数百万个设备的设备时间序列数据,将给定设备的所有时间序列读取分组到一组文件中(分割)。现在假设我们的目标是 100 个分区,给定的设备数据显示在同一个输出文件中并不重要,只是同一个分区。

鉴于这个问题,我们提出了两种方法来做到这一点 - repartitionthenwritewritewithpartitionBy应用于Writer. 其中任何一个的代码都非常简单:

repartition(添加了哈希列以确保与partitionBy以下代码的比较是一对一的):

partitionBy

在我们的测试repartition中比partitionBy. 为什么是这样?

根据我的理解repartition,我的 Spark 学习告诉我要尽可能避免这种洗牌。另一方面,partitionBy(根据我的理解)只对每个节点产生本地排序操作 - 不需要洗牌。我是否误解了一些让我认为partitionBy会更快的东西?

0 投票
1 回答
54 浏览

xml - 在 Pyspark Databricks 中读取 XML 文件时如何忽略注释?

我正在尝试在 PySpark 的 Azure Databricks Notebook 中读取 xml 文件。问题是我的persons.xml 一开始就有一些评论。我只想在阅读文件时忽略它们。

我的 XML 如下所示:

0 投票
0 回答
29 浏览

xml - spark-xml 在每个行标签从 0.4.1 升级到 0.13.0 后写入空行

我们使用 databricks:spark-xml 库版本 0.4.1 将数据集输出写入 xml 文件。行标签后没有空行,一切都很好。在我们将 databricks:spark-xml 库升级到版本 0.13.0 后,我们观察到它在每个行标记之后写入了额外的空行。我正在寻找通过使用 xml 库中可用的任何选项来删除此空行的选项。有什么办法吗?

0 投票
0 回答
33 浏览

pyspark - 在 PySpark 中解析 XML 处理指令

我正在尝试解析一个具有处理指令的 XML 文件,使用databricks spark-xml. 示例 XML

有没有办法解析那些 XML 处理指令SOURCE& DATE?我可以读取其他 XML 标记值,但无法读取处理指令。

我尝试使用lxml库并能够阅读处理说明,但无法使用spark-xml库执行相同的操作。

提前致谢

0 投票
1 回答
36 浏览

xml - 使用 spark-xml 包在使用 XSD 解析 XML 时获取空数据框

我试图通过提供 XSD 模式来解析简单的 XML。使用这里给出的方法。

https://github.com/databricks/spark-xml#xsd-support

XML 在这里:

XSD 在这里:

我正在尝试阅读此 XSD 并尝试构建如下所示的架构。

这里模式成功解析。接下来我正在阅读如下的 XML 文件。

在这一步之后,我可以使用 df.printSchema() 显示 Dataframe 的模式,但是如果我给 df.show() 内容就会变成空的

请指导我在这里做错了什么。

注意:这个问题与这个问题完全相同:How to parse XML with XSD using spark-xml package?

但是再次重新发布相同的问题,因为我无法在那里发表评论。提前致谢。

0 投票
0 回答
6 浏览

apache-spark-xml - Spark-xml:无法读取具有属性的元素的值

我正在尝试使用 Spark-xml 读取链接https://www.dropbox.com/s/yg66o0tfwipx3mu/PMC1249490.xml?dl=0中的 xml 文件

这是一篇研究文章,我对摘要中的文字感兴趣。似乎整个 xml 文件的架构被正确推断,但抽象元素缺少文本数据。它显示属性值(称为 P1)和括号中的单词。谁能帮我?

下面是我正在使用的代码: