问题标签 [apache-spark-xml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
179 浏览

pyspark - 谷歌云笔记本 - Pyspark:java.lang.ClassNotFoundException:找不到数据源:xml

我需要使用谷歌云笔记本中的 com.databricks.spark.xml

试过:

但我得到:

java.lang.ClassNotFoundException:找不到数据源:xml。请在http://spark.apache.org/third-party-projects.xml找到包

0 投票
0 回答
121 浏览

java - Spark-xml vs SAX Parser vs DOM parser,哪个更好?

我正在探索不同技术中的 XML 处理,我们已经有了一些代码,在 Java 中我们使用了 SAX Parser,在 Spark 中我们是来自数据块的 spark-xml。现在我试图找出每个解析器在特定条件下的优缺点。我发现通过使用 spark-xml,它可以为您推断架构,而 SAX 解析器不能,这对于在非常嵌套的位置提取数据更好。

我还是一个初学者,有没有人能告诉我更多关于 Spark-xml 和 JAVA XML Parser 之间的比较?任何输入都将受到欢迎。谢谢!

0 投票
0 回答
75 浏览

scala - 如何在生成 xml 时使用 spark 对日期进行排序?

我正在尝试通过使用一些 jax jar 转换数据帧来编写一个 xml 文件,但我需要进行排序。如果我在数据帧级别应用我的排序,它不会排序,因为最后我正在使用 xml jar 编写最终数据帧并调用每个对象如何在这里根据日期进行排序?

我怎样才能对_Efdateand进行排序_Expdate?使用dff.sortBy?或任何其他方式?

例如: Channel.sortBy(x => (x._Efdate, x._Expdate))

像下面?

val sortUdf = udf { (xs: Seq[Row]) => xs.sortBy(_.getAsInt ) .map{ case Row(x:java.sql.Date, y: Int) => (x,y) }} ?

0 投票
1 回答
1941 浏览

python - 在 emr 集群上安装 com.databricks.spark.xml

有谁知道如何在 EMR 集群上安装com.databricks.spark.xml包。

我成功连接到主emr,但不知道如何在emr集群上安装包。

代码

0 投票
1 回答
86 浏览

xml - 如何使用 scala 从数据框创建 XML 字符串

我有一个场景,我正在从我的配置单元表中读取并创建一个 spark 数据框。我想从数据帧的输出中生成一个 xml 字符串并将其保存在一个新的数据帧中(作为 xml 字符串),而不是将其写入 HDFS 中的文件以创建 xml。请告诉我这是否可以使用 databricks spark-xml 来完成。

0 投票
1 回答
1962 浏览

azure-databricks - 从 ADLS Gen2 错误读取文件 - 找不到配置属性 xxx.dfs.core.windows.net

我正在使用来自 Databricks 笔记本的 ADLS Gen2,它试图使用“abfss”路径处理文件。我能够很好地读取镶木地板文件,但是当我尝试加载 XML 文件时,我收到错误找不到配置 - 找不到配置属性 xxx.dfs.core.windows.net。

我没有尝试安装文件,但试图了解它是否是 XML 文件的已知限制,因为我能够很好地读取镶木地板文件。

这是我的 XML 库配置 com.databricks:spark-xml_2.11:0.9.0

我根据其他文章尝试了几件事,但仍然遇到相同的错误。

  • 添加了一个新范围以查看它是否是 Databricks 工作区中的范围问题。
  • 尝试添加配置 spark.conf.set("fs.azure.account.key.xxxxx.dfs.core.windows.net", "xxxx==")
0 投票
2 回答
93 浏览

apache-spark - 如何访问数组类型值并在两个不同的列中设置火花?

我正在学习 Spark,我有下面的 xml,我想从中读取 2 个值并创建两个不同的列

我想

如果 type="test" 那么它应该在新列“app_test”中设置值(即 8.52544)和

如果 type="dev" 那么它应该在新列“app_dev”中设置值(即 8.52537)

我在下面试过

但它返回

在将值设置为列时如何区分?

更新:

0 投票
1 回答
610 浏览

scala - 从 Azure Databricks 中的 azure 存储容器读取文件并修改文件名

我正在摄取大型 XML 文件并根据 XML 元素生成单个 JSON,我在 azure databricks 中使用 SPARK-XML。将 json 文件创建为的代码

我能够提取 XML 元素节点并写入 Azure 存储容器。在容器中创建了一个文件夹,在该文件夹中我们的名称是 guid 而不是文件名。

在此处输入图像描述

任何人都可以建议我们是否可以控制在容器中创建的文件名,即 part-0000 变成有意义的名称,以便可以使用一些 Azure Blob 触发器读取它。

0 投票
1 回答
26 浏览

azure-databricks - 是否可以在数据块增量表的同一列中存储 2 种不同的结构类型?

我正在接收需要加载到一个表中的多个 XML 文件。这些 XML 文件对于特定列具有不同的结构类型。我想知道这个列是否可以以某种方式存储在数据块表的同一列中。请参阅下面我为同一列 col1 获得的不同结构类型。在 file1 col1 是 struct 和 col1a 是 struct 和 col1a1,col1a2..是 file2 的字符串类型 col1 是一个结构类型,但底层 col1b 和 col1c 是字符串类型。

文件 1 : col1 col1a col1a1 col1a2 。. col1b

文件 2: col1 col1b col1c

0 投票
1 回答
827 浏览

python - Spark:如何从具有属性的多个嵌套 XML 文件转换为 Data Frame 数据

如何将以下值从多个 XML 文件转换为 spark 数据框:

  • 属性Id0来自Level_0
  • Date/ValueLevel_4

所需输出:

文件_1.xml:

文件_2.xml:

当前代码示例:

当前输出:(Id0缺少属性的列)

有一些示例,但没有一个可以解决问题:-我正在使用 databricks spark_xml - https://github.com/databricks/spark-xml -有一个示例,但没有属性读取,在 spark 中读取 XML使用 sparkxml 从 xml 中提取标签属性

编辑: 正如@mck 正确指出的那样, <Level_2>A</Level_2>XML 格式不正确。我的示例中有一个错误(现在更正了 xml 文件),应该是<Level_2_A>A</Level_2_A>. 之后,建议的解决方案甚至适用于多个文件。

注意:为了加速加载大量 xml 定义架构,如果没有定义架构,则在创建数据帧以干扰架构时,火花正在读取每个文件...更多信息:https ://szczeles.github.io/Reading-JSON- CSV-and-XML-files-efficiently-in-Apache-Spark/

步骤1):

第 2 步)见下面@mck 解决方案: