问题标签 [apache-spark-xml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2251 浏览

apache-spark - javax.xml.stream.XMLStreamException:试图输出第二个根 Spark-XML Spark 程序

我正在尝试运行这个小的 spark-xml 示例,当我执行 spark-submit 时它失败并出现异常。

示例仓库:https ://github.com/punithmailme/spark-xml-new

命令:./dse spark-submit --class MainDriver /Users/praj3/Desktop/projects/spark/main/build/libs/main.jar

例外..

Mac 上的环境和依赖 DataStax Enterprise 5.1.8 具有以下依赖项

DSE 5.1.8 组件

  • 阿帕奇卡桑德拉™ 3.11.1.2261
  • Apache Solr™ 6.0.1.0.2224
  • Apache Spark™ 2.0.2.17
  • DSE Java 驱动程序 1.2.6
  • 星火作业服务器 0.6.2.237

当我将其作为主方法作为单线程运行时,它可以工作,只有在 spark-submit 上它不起作用!!!

0 投票
1 回答
472 浏览

apache-spark - 使用递归通配符将 XML 文档提取为 pyspark 中的字符串

XPath目标是在给定表达式的情况下,从一组文本文件中提取 XML 文档作为字符串。困难在于文本文件可能采用的形式的差异。可能是:

  • 包含 100 个文件的单个 zip/tar 文件,每个文件 1 个 XML 文档
  • 一个文件,包含 100 个 XML 文档(聚合文档)
  • 一个 zip / tar 文件,具有不同级别的目录,将单个 XML 记录作为文件和聚合 XML 文件

我以为我找到了使用Databrick 的 Spark Spark-XML 库的解决方案,因为它在读取文件时处理递归通配符。这是惊人的。可以做这样的事情:

问题是,这个库专注于将 XML 记录解析为 DataFrame 列,我的目标是仅检索 XML 文档作为存储字符串。

我的 scala 不够强大,无法轻松破解 Spark-XML 库以利用文档的递归 globbing 和 XPath 抓取,而是跳过解析,而是将整个 XML 记录保存为字符串。

该库具有将 DataFrame 序列化为 XML 的能力,但序列化与输入明显不同(这在某种程度上是可以预料的)。例如,元素文本值成为元素属性。给定以下原始 XML:

读取然后使用 Spark-XML 序列化返回:

但是,即使我可以VALUE将 序列化为实际的元素值,我仍然无法实现我的最终目标,即通过 Spark-XML 出色的通配符和 XPath 选择来发现和读取这些 XML 文档,就像字符串一样。

任何见解将不胜感激。

0 投票
3 回答
34863 浏览

xml - 在 Spark 中读取 XML

我正在尝试使用 spark-xml jar 在 pyspark 中读取 xml/嵌套 xml。

当我执行时,数据框没有正确创建。

下面提到了我拥有的 xml 格式:

在此处输入图像描述

0 投票
1 回答
3418 浏览

apache-spark - 如何将多行标签xml文件转换为数据框

我有具有多个行标签的 xml 文件。我需要将此 xml 转换为正确的数据框。我使用了仅处理单行标签的 spark-xml。

xml数据如下

0 投票
0 回答
203 浏览

apache-spark - Spark XML API - 标签之间的文本

使用 Spark XML,我试图获取出现在根元素中 2 个元素之间的文本。例如:

我想获取 b 元素之间的文本(文本看不到 ,文本看不到)

以下是我尝试过的代码

有什么想法可以通过使用 Spark XML 库的自定义模式来实现吗?

谢谢

0 投票
1 回答
101 浏览

apache-spark-xml - 使用 spark 解析 XML

我在 hive 中有一个表,其中包含两列 id(int) 和 xml_column(string)。xml_column 实际上是一个 xml,但它存储为字符串。

我的问题是:我想解析这个 xml 并使用 spark (scala) 拆分为模式格式。谁能帮我解决这个问题?尝试过数据砖火花 xml 库,但该库处理 xml 文件。

或者有什么方法可以将此字符串列转换为 json,我有一个可以处理这个的 json 解析器。

0 投票
1 回答
605 浏览

scala - 选择以特定模式开头的字段:Spark XML Parsing

我不得不解析一些非常大的 xml 文件。我想提取这些 xml 文件中的一些字段,然后对它们执行一些工作。但是,我需要遵循一些规则,即我只能选择遵循某种模式的字段。

这是我要实现的目标的示例:

鉴于此,我想进入值字段,所以我执行以下操作

这是我的问题:我想选择 value 中以以下模式 E2EDK1 开头的所有字段。但是,我坚持如何做到这一点。这是我想要的最终结果:

我知道我可以直接选择该字段,但在我使用的数据中,E2EDK1000 并不总是会一直存在。永远存在的是 E2EDK1。

我试过使用 startsWith() 但这似乎不起作用,例如

0 投票
1 回答
165 浏览

apache-spark - Spark JavaRdd / DataFrame / DataSet 到 XML

我想将 spark JavaRdd/Dataframe/Dataset 转换为 xml。我分析了 DataBrics 中的 spark-xml,这个 repo 上次发布于 2016 年 11 月(0.4.1 版本),我怀疑它与新版本的 DSE 和 Spark 的兼容性。

有没有 spark-xml 的替代品?

火花-xml https://github.com/databricks/spark-xml

0 投票
1 回答
1312 浏览

apache-spark - Spark-xml Roottag 和 rowtag 未正确读取 xml

我正在研究具有如下结构的 xml。

我正在尝试访问标签 2.1.1 及其子属性。因此,我将根标签作为标签 2,将行标签作为标签 2.1.1。下面的代码返回 null。如果我对 tag1 应用相同的逻辑,它工作正常。我在这里想念什么?

0 投票
1 回答
1019 浏览

scala - 使用 spark xml 读取值 xml 标记值,想要获取值但给我列表

火花与火花 XML

打印模式

运行后的结果

我期望结果是这样的。

任何人都请指导我应该更正代码以产生预期结果