问题标签 [apache-spark-xml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - 谷歌云笔记本 - Pyspark:java.lang.ClassNotFoundException:找不到数据源:xml
我需要使用谷歌云笔记本中的 com.databricks.spark.xml
试过:
但我得到:
java.lang.ClassNotFoundException:找不到数据源:xml。请在http://spark.apache.org/third-party-projects.xml找到包
java - Spark-xml vs SAX Parser vs DOM parser,哪个更好?
我正在探索不同技术中的 XML 处理,我们已经有了一些代码,在 Java 中我们使用了 SAX Parser,在 Spark 中我们是来自数据块的 spark-xml。现在我试图找出每个解析器在特定条件下的优缺点。我发现通过使用 spark-xml,它可以为您推断架构,而 SAX 解析器不能,这对于在非常嵌套的位置提取数据更好。
我还是一个初学者,有没有人能告诉我更多关于 Spark-xml 和 JAVA XML Parser 之间的比较?任何输入都将受到欢迎。谢谢!
scala - 如何在生成 xml 时使用 spark 对日期进行排序?
我正在尝试通过使用一些 jax jar 转换数据帧来编写一个 xml 文件,但我需要进行排序。如果我在数据帧级别应用我的排序,它不会排序,因为最后我正在使用 xml jar 编写最终数据帧并调用每个对象如何在这里根据日期进行排序?
我怎样才能对_Efdate
and进行排序_Expdate
?使用dff.sortBy
?或任何其他方式?
例如: Channel.sortBy(x => (x._Efdate, x._Expdate))
像下面?
val sortUdf = udf { (xs: Seq[Row]) => xs.sortBy(_.getAsInt ) .map{ case Row(x:java.sql.Date, y: Int) => (x,y) }} ?
python - 在 emr 集群上安装 com.databricks.spark.xml
有谁知道如何在 EMR 集群上安装com.databricks.spark.xml包。
我成功连接到主emr,但不知道如何在emr集群上安装包。
代码
xml - 如何使用 scala 从数据框创建 XML 字符串
我有一个场景,我正在从我的配置单元表中读取并创建一个 spark 数据框。我想从数据帧的输出中生成一个 xml 字符串并将其保存在一个新的数据帧中(作为 xml 字符串),而不是将其写入 HDFS 中的文件以创建 xml。请告诉我这是否可以使用 databricks spark-xml 来完成。
azure-databricks - 从 ADLS Gen2 错误读取文件 - 找不到配置属性 xxx.dfs.core.windows.net
我正在使用来自 Databricks 笔记本的 ADLS Gen2,它试图使用“abfss”路径处理文件。我能够很好地读取镶木地板文件,但是当我尝试加载 XML 文件时,我收到错误找不到配置 - 找不到配置属性 xxx.dfs.core.windows.net。
我没有尝试安装文件,但试图了解它是否是 XML 文件的已知限制,因为我能够很好地读取镶木地板文件。
这是我的 XML 库配置 com.databricks:spark-xml_2.11:0.9.0
我根据其他文章尝试了几件事,但仍然遇到相同的错误。
- 添加了一个新范围以查看它是否是 Databricks 工作区中的范围问题。
- 尝试添加配置 spark.conf.set("fs.azure.account.key.xxxxx.dfs.core.windows.net", "xxxx==")
apache-spark - 如何访问数组类型值并在两个不同的列中设置火花?
我正在学习 Spark,我有下面的 xml,我想从中读取 2 个值并创建两个不同的列
我想
如果 type="test" 那么它应该在新列“app_test”中设置值(即 8.52544)和
如果 type="dev" 那么它应该在新列“app_dev”中设置值(即 8.52537)
我在下面试过
但它返回
在将值设置为列时如何区分?
更新:
azure-databricks - 是否可以在数据块增量表的同一列中存储 2 种不同的结构类型?
我正在接收需要加载到一个表中的多个 XML 文件。这些 XML 文件对于特定列具有不同的结构类型。我想知道这个列是否可以以某种方式存储在数据块表的同一列中。请参阅下面我为同一列 col1 获得的不同结构类型。在 file1 col1 是 struct 和 col1a 是 struct 和 col1a1,col1a2..是 file2 的字符串类型 col1 是一个结构类型,但底层 col1b 和 col1c 是字符串类型。
文件 1 : col1 col1a col1a1 col1a2 。. col1b
文件 2: col1 col1b col1c
python - Spark:如何从具有属性的多个嵌套 XML 文件转换为 Data Frame 数据
如何将以下值从多个 XML 文件转换为 spark 数据框:
- 属性
Id0
来自Level_0
Date
/Value
从Level_4
所需输出:
文件_1.xml:
文件_2.xml:
当前代码示例:
当前输出:(Id0
缺少属性的列)
有一些示例,但没有一个可以解决问题:-我正在使用 databricks spark_xml - https://github.com/databricks/spark-xml -有一个示例,但没有属性读取,在 spark 中读取 XML,使用 sparkxml 从 xml 中提取标签属性。
编辑:
正如@mck 正确指出的那样, <Level_2>A</Level_2>
XML 格式不正确。我的示例中有一个错误(现在更正了 xml 文件),应该是<Level_2_A>A</Level_2_A>
. 之后,建议的解决方案甚至适用于多个文件。
注意:为了加速加载大量 xml 定义架构,如果没有定义架构,则在创建数据帧以干扰架构时,火花正在读取每个文件...更多信息:https ://szczeles.github.io/Reading-JSON- CSV-and-XML-files-efficiently-in-Apache-Spark/
步骤1):
第 2 步)见下面@mck 解决方案: