问题标签 [apache-spark-xml]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

69 问题

0 投票

0 回答

38 浏览

python - 在 pyspark 中分解简单的 XML 文件（不使用数据块）

我有一个 XML 文件，如下所示：

我怎样才能炸开面糊和浇头并将其压平成表格格式？

2021-08-24T07:51:00.633

0 投票

1 回答

59 浏览

apache-spark - 将 Apache Spark xml 从 2.11 迁移到 2.12 会给出以下警告。如何直接使用 xmlReader

代码：

警告：类 XmlDataFrameReader 中的方法 xml 已弃用（自 0.13.0 起）：直接使用 XmlReader .xml(df.select("payload").map(x => x.getString(0)))

apache-spark apache-spark-sql databricks azure-databricks apache-spark-xml

2021-10-07T06:12:11.293

0 投票

0 回答

68 浏览

xml - 火花-XML；在读取时使用显式模式从 S3 读取。XML中的数组类型问题

我正在尝试通过 Scala Spark API ( https://github.com/databricks/spark-xml ) 访问 spark-xml 库，以便从 S3 读取大量 XML 文件。

S3 中跨 XML 文件的架构不同，因此简单地一次读取它们会导致某些字段在读取时损坏。我相信这是由于 XML 文件之间的架构不一致，这在很大程度上是相同的架构
因此，我指定要在模式对象中显式提取的标签
当涉及到数组类型时，我对用于定义架构的语法有疑问。
您可以在下面看到 XML 的架构。出于这个问题的目的，我只是想提取以下内容：
- _ProgramInfoID
- _VALUE（包含在数组类型对象 Line 中）

感谢这里的任何反馈！

以下代码示例仅提取_ProgramInfoID字段

以下尝试同时读取ProgramInfoID 和 _VALUE，但在尝试定义架构对象时遇到错误

错误：

我意识到这是一个语法错误，但我无法找到关于如何将下面看到的模式转换为涉及 Spark 类型（如 ArrayType、StructField 和 StructType）的模式的良好文档。

涉及 XML 中数组类型对象的相关问题： spark 中用于 xml 处理的复杂自定义模式

但是，我无法使用那里的解决方案解决这个问题。

XML 示例数据模式

我很感激这里的任何帮助，谢谢！

xml scala apache-spark apache-spark-xml

2021-11-02T18:31:04.023

0 投票

2 回答

315 浏览

apache-spark - 为什么在 Spark 中重新分区比 partitionBy 快？

我正在尝试将 Spark 用于一个非常简单的用例：给定大量文件（90k），其中包含数百万个设备的设备时间序列数据，将给定设备的所有时间序列读取分组到一组文件中（分割）。现在假设我们的目标是 100 个分区，给定的设备数据显示在同一个输出文件中并不重要，只是同一个分区。

鉴于这个问题，我们提出了两种方法来做到这一点 - repartitionthenwrite或writewithpartitionBy应用于Writer. 其中任何一个的代码都非常简单：

repartition（添加了哈希列以确保与partitionBy以下代码的比较是一对一的）：

partitionBy：

在我们的测试repartition中比partitionBy. 为什么是这样？

根据我的理解repartition，我的 Spark 学习告诉我要尽可能避免这种洗牌。另一方面，partitionBy（根据我的理解）只对每个节点产生本地排序操作 - 不需要洗牌。我是否误解了一些让我认为partitionBy会更快的东西？

apache-spark pyspark apache-spark-sql apache-spark-xml

2021-11-15T06:25:46.240

0 投票

1 回答

54 浏览

xml - 在 Pyspark Databricks 中读取 XML 文件时如何忽略注释？

我正在尝试在 PySpark 的 Azure Databricks Notebook 中读取 xml 文件。问题是我的persons.xml 一开始就有一些评论。我只想在阅读文件时忽略它们。

我的 XML 如下所示：

xml apache-spark pyspark azure-databricks apache-spark-xml

2021-11-26T10:26:56.770

0 投票

0 回答

29 浏览

xml - spark-xml 在每个行标签从 0.4.1 升级到 0.13.0 后写入空行

我们使用 databricks:spark-xml 库版本 0.4.1 将数据集输出写入 xml 文件。行标签后没有空行，一切都很好。在我们将 databricks:spark-xml 库升级到版本 0.13.0 后，我们观察到它在每个行标记之后写入了额外的空行。我正在寻找通过使用 xml 库中可用的任何选项来删除此空行的选项。有什么办法吗？

xml apache-spark-xml

2021-12-08T08:48:35.330

0 投票

0 回答

33 浏览