问题标签 [apache-spark-xml]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

69 问题

0 投票

1 回答

2251 浏览

apache-spark - javax.xml.stream.XMLStreamException：试图输出第二个根 Spark-XML Spark 程序

我正在尝试运行这个小的 spark-xml 示例，当我执行 spark-submit 时它失败并出现异常。

示例仓库：https ://github.com/punithmailme/spark-xml-new

命令：./dse spark-submit --class MainDriver /Users/praj3/Desktop/projects/spark/main/build/libs/main.jar

例外..

Mac 上的环境和依赖 DataStax Enterprise 5.1.8 具有以下依赖项

DSE 5.1.8 组件

阿帕奇卡桑德拉™ 3.11.1.2261
Apache Solr™ 6.0.1.0.2224
Apache Spark™ 2.0.2.17
DSE Java 驱动程序 1.2.6
星火作业服务器 0.6.2.237

当我将其作为主方法作为单线程运行时，它可以工作，只有在 spark-submit 上它不起作用！！！

2018-05-02T09:49:07.717

0 投票

1 回答

472 浏览

apache-spark - 使用递归通配符将 XML 文档提取为 pyspark 中的字符串

XPath目标是在给定表达式的情况下，从一组文本文件中提取 XML 文档作为字符串。困难在于文本文件可能采用的形式的差异。可能是：

包含 100 个文件的单个 zip/tar 文件，每个文件 1 个 XML 文档
一个文件，包含 100 个 XML 文档（聚合文档）
一个 zip / tar 文件，具有不同级别的目录，将单个 XML 记录作为文件和聚合 XML 文件

我以为我找到了使用Databrick 的 Spark Spark-XML 库的解决方案，因为它在读取文件时处理递归通配符。这是惊人的。可以做这样的事情：

问题是，这个库专注于将 XML 记录解析为 DataFrame 列，我的目标是仅检索 XML 文档作为存储字符串。

我的 scala 不够强大，无法轻松破解 Spark-XML 库以利用文档的递归 globbing 和 XPath 抓取，而是跳过解析，而是将整个 XML 记录保存为字符串。

该库具有将 DataFrame 序列化为 XML 的能力，但序列化与输入明显不同（这在某种程度上是可以预料的）。例如，元素文本值成为元素属性。给定以下原始 XML：

读取然后使用 Spark-XML 序列化返回：

但是，即使我可以VALUE将序列化为实际的元素值，我仍然无法实现我的最终目标，即通过 Spark-XML 出色的通配符和 XPath 选择来发现和读取这些 XML 文档，就像字符串一样。

任何见解将不胜感激。

apache-spark pyspark databricks apache-spark-xml

2018-05-18T14:32:27.727

0 投票

3 回答

34863 浏览

xml - 在 Spark 中读取 XML

我正在尝试使用 spark-xml jar 在 pyspark 中读取 xml/嵌套 xml。

当我执行时，数据框没有正确创建。

下面提到了我拥有的 xml 格式：

xml apache-spark dataframe pyspark apache-spark-xml

2018-05-19T20:43:13.003

0 投票

1 回答

3418 浏览

apache-spark - 如何将多行标签xml文件转换为数据框

我有具有多个行标签的 xml 文件。我需要将此 xml 转换为正确的数据框。我使用了仅处理单行标签的 spark-xml。

xml数据如下

apache-spark pyspark apache-spark-xml

2018-05-20T09:41:10.240

0 投票

0 回答

203 浏览

apache-spark - Spark XML API - 标签之间的文本

使用 Spark XML，我试图获取出现在根元素中 2 个元素之间的文本。例如：

我想获取 b 元素之间的文本（文本看不到 ，文本也看不到）

以下是我尝试过的代码

有什么想法可以通过使用 Spark XML 库的自定义模式来实现吗？

谢谢

apache-spark apache-spark-xml

2018-05-30T09:56:26.077

0 投票

1 回答

101 浏览

apache-spark-xml - 使用 spark 解析 XML

我在 hive 中有一个表，其中包含两列 id(int) 和 xml_column(string)。xml_column 实际上是一个 xml，但它存储为字符串。

我的问题是：我想解析这个 xml 并使用 spark (scala) 拆分为模式格式。谁能帮我解决这个问题？尝试过数据砖火花 xml 库，但该库处理 xml 文件。

或者有什么方法可以将此字符串列转换为 json，我有一个可以处理这个的 json 解析器。

apache-spark-xml

2018-05-30T22:16:49.060

0 投票

1 回答

605 浏览

scala - 选择以特定模式开头的字段：Spark XML Parsing

我不得不解析一些非常大的 xml 文件。我想提取这些 xml 文件中的一些字段，然后对它们执行一些工作。但是，我需要遵循一些规则，即我只能选择遵循某种模式的字段。

这是我要实现的目标的示例：

鉴于此，我想进入值字段，所以我执行以下操作

这是我的问题：我想选择 value 中以以下模式 E2EDK1 开头的所有字段。但是，我坚持如何做到这一点。这是我想要的最终结果：

我知道我可以直接选择该字段，但在我使用的数据中，E2EDK1000 并不总是会一直存在。永远存在的是 E2EDK1。

我试过使用 startsWith() 但这似乎不起作用，例如

scala apache-spark apache-spark-sql apache-spark-xml

2018-06-12T23:14:49.697

0 投票

1 回答

165 浏览

apache-spark - Spark JavaRdd / DataFrame / DataSet 到 XML

我想将 spark JavaRdd/Dataframe/Dataset 转换为 xml。我分析了 DataBrics 中的 spark-xml，这个 repo 上次发布于 2016 年 11 月（0.4.1 版本），我怀疑它与新版本的 DSE 和 Spark 的兼容性。

有没有 spark-xml 的替代品？

火花-xml https://github.com/databricks/spark-xml

apache-spark dataframe xml-parsing apache-spark-sql apache-spark-xml

2018-07-10T04:32:19.460

0 投票

1 回答

1312 浏览

apache-spark - Spark-xml Roottag 和 rowtag 未正确读取 xml

我正在研究具有如下结构的 xml。

我正在尝试访问标签 2.1.1 及其子属性。因此，我将根标签作为标签 2，将行标签作为标签 2.1.1。下面的代码返回 null。如果我对 tag1 应用相同的逻辑，它工作正常。我在这里想念什么？

apache-spark pyspark apache-spark-xml

2018-12-11T07:57:38.063

0 投票

1 回答

1019 浏览

scala - 使用 spark xml 读取值 xml 标记值，想要获取值但给我列表

火花与火花 XML

打印模式

运行后的结果

我期望结果是这样的。

任何人都请指导我应该更正代码以产生预期结果

scala apache-spark apache-spark-xml

2018-12-18T00:56:53.777

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-xml]

Reference