“apache-spark-xml”的相关标签问题

0 投票

0 回答

179 浏览

pyspark - 谷歌云笔记本 - Pyspark：java.lang.ClassNotFoundException：找不到数据源：xml

我需要使用谷歌云笔记本中的 com.databricks.spark.xml

试过：

但我得到：

java.lang.ClassNotFoundException：找不到数据源：xml。请在http://spark.apache.org/third-party-projects.xml找到包

2019-12-28T21:03:23.153

0 投票

0 回答

121 浏览

java - Spark-xml vs SAX Parser vs DOM parser，哪个更好？

我正在探索不同技术中的 XML 处理，我们已经有了一些代码，在 Java 中我们使用了 SAX Parser，在 Spark 中我们是来自数据块的 spark-xml。现在我试图找出每个解析器在特定条件下的优缺点。我发现通过使用 spark-xml，它可以为您推断架构，而 SAX 解析器不能，这对于在非常嵌套的位置提取数据更好。

我还是一个初学者，有没有人能告诉我更多关于 Spark-xml 和 JAVA XML Parser 之间的比较？任何输入都将受到欢迎。谢谢！

java apache-spark dom saxparser apache-spark-xml

2020-01-31T15:22:58.157

0 投票

0 回答

75 浏览

scala - 如何在生成 xml 时使用 spark 对日期进行排序？

我正在尝试通过使用一些 jax jar 转换数据帧来编写一个 xml 文件，但我需要进行排序。如果我在数据帧级别应用我的排序，它不会排序，因为最后我正在使用 xml jar 编写最终数据帧并调用每个对象如何在这里根据日期进行排序？

我怎样才能对_Efdateand进行排序_Expdate？使用dff.sortBy？或任何其他方式？

例如： Channel.sortBy(x => (x._Efdate, x._Expdate))

像下面？

val sortUdf = udf { (xs: Seq[Row]) => xs.sortBy(_.getAsInt ) .map{ case Row(x:java.sql.Date, y: Int) => (x,y) }} ?

scala apache-spark apache-spark-sql apache-spark-xml

2020-02-05T15:02:37.143

0 投票

1 回答

1941 浏览

python - 在 emr 集群上安装 com.databricks.spark.xml

有谁知道如何在 EMR 集群上安装com.databricks.spark.xml包。

我成功连接到主emr，但不知道如何在emr集群上安装包。

代码

python amazon-web-services apache-spark amazon-emr apache-spark-xml

2020-02-19T10:50:16.490

0 投票

1 回答

86 浏览

xml - 如何使用 scala 从数据框创建 XML 字符串

我有一个场景，我正在从我的配置单元表中读取并创建一个 spark 数据框。我想从数据帧的输出中生成一个 xml 字符串并将其保存在一个新的数据帧中（作为 xml 字符串），而不是将其写入 HDFS 中的文件以创建 xml。请告诉我这是否可以使用 databricks spark-xml 来完成。

xml scala databricks apache-spark-xml

2020-08-04T11:15:53.067

0 投票

1 回答

1962 浏览

azure-databricks - 从 ADLS Gen2 错误读取文件 - 找不到配置属性 xxx.dfs.core.windows.net

我正在使用来自 Databricks 笔记本的 ADLS Gen2，它试图使用“abfss”路径处理文件。我能够很好地读取镶木地板文件，但是当我尝试加载 XML 文件时，我收到错误找不到配置 - 找不到配置属性 xxx.dfs.core.windows.net。

我没有尝试安装文件，但试图了解它是否是 XML 文件的已知限制，因为我能够很好地读取镶木地板文件。

这是我的 XML 库配置 com.databricks:spark-xml_2.11:0.9.0

我根据其他文章尝试了几件事，但仍然遇到相同的错误。

添加了一个新范围以查看它是否是 Databricks 工作区中的范围问题。
尝试添加配置 spark.conf.set("fs.azure.account.key.xxxxx.dfs.core.windows.net", "xxxx==")

azure-databricks azure-data-lake-gen2 apache-spark-xml

2020-08-13T17:17:15.447

0 投票

2 回答

93 浏览

apache-spark - 如何访问数组类型值并在两个不同的列中设置火花？

我正在学习 Spark，我有下面的 xml，我想从中读取 2 个值并创建两个不同的列

我想

如果 type="test" 那么它应该在新列“app_test”中设置值（即 8.52544）和

如果 type="dev" 那么它应该在新列“app_dev”中设置值（即 8.52537）

我在下面试过

但它返回

在将值设置为列时如何区分？

更新：

apache-spark apache-spark-sql apache-spark-xml

2020-09-21T13:30:59.773

0 投票

1 回答

610 浏览

scala - 从 Azure Databricks 中的 azure 存储容器读取文件并修改文件名

我正在摄取大型 XML 文件并根据 XML 元素生成单个 JSON，我在 azure databricks 中使用 SPARK-XML。将 json 文件创建为的代码

我能够提取 XML 元素节点并写入 Azure 存储容器。在容器中创建了一个文件夹，在该文件夹中我们的名称是 guid 而不是文件名。

任何人都可以建议我们是否可以控制在容器中创建的文件名，即 part-0000 变成有意义的名称，以便可以使用一些 Azure Blob 触发器读取它。

scala azure-blob-storage azure-databricks apache-spark-xml

2020-10-13T06:46:46.097

0 投票

1 回答

26 浏览

azure-databricks - 是否可以在数据块增量表的同一列中存储 2 种不同的结构类型？

我正在接收需要加载到一个表中的多个 XML 文件。这些 XML 文件对于特定列具有不同的结构类型。我想知道这个列是否可以以某种方式存储在数据块表的同一列中。请参阅下面我为同一列 col1 获得的不同结构类型。在 file1 col1 是 struct 和 col1a 是 struct 和 col1a1，col1a2..是 file2 的字符串类型 col1 是一个结构类型，但底层 col1b 和 col1c 是字符串类型。

文件 1 ： col1 col1a col1a1 col1a2 。. col1b

文件 2： col1 col1b col1c

azure-databricks delta apache-spark-xml

2020-12-24T08:11:17.973

0 投票

1 回答

827 浏览

python - Spark：如何从具有属性的多个嵌套 XML 文件转换为 Data Frame 数据

如何将以下值从多个 XML 文件转换为 spark 数据框：

属性Id0来自Level_0
Date/Value从Level_4

所需输出：

文件_1.xml：

文件_2.xml：

当前代码示例：

当前输出：（Id0缺少属性的列）

有一些示例，但没有一个可以解决问题：-我正在使用 databricks spark_xml - https://github.com/databricks/spark-xml -有一个示例，但没有属性读取，在 spark 中读取 XML，使用 sparkxml 从 xml 中提取标签属性。

编辑： 正如@mck 正确指出的那样， <Level_2>A</Level_2>XML 格式不正确。我的示例中有一个错误（现在更正了 xml 文件），应该是<Level_2_A>A</Level_2_A>. 之后，建议的解决方案甚至适用于多个文件。

注意：为了加速加载大量 xml 定义架构，如果没有定义架构，则在创建数据帧以干扰架构时，火花正在读取每个文件...更多信息：https ://szczeles.github.io/Reading-JSON- CSV-and-XML-files-efficiently-in-Apache-Spark/

步骤1）：

第 2 步）见下面@mck 解决方案：

python apache-spark pyspark apache-spark-xml

2020-12-31T23:59:30.313

问题标签 [apache-spark-xml]

Reference