1

我正在尝试使用 databricks 笔记本中的 PySpark 将 XML 文件加载到数据框中。

df = spark.read.format("xml").options(
    rowTag="product" , mode="PERMISSIVE", columnNameOfCorruptRecord="error_record"
).load(filePath)

这样做时,我收到以下错误:

Could not initialize class com.databricks.spark.xml.util.PermissiveMode$

Databricks 运行时版本:7.3 LTS Spark 版本:3.0.1 Scala 版本:2.12

相同的代码块在 DBR 6.4 Spark 2.4.5、Scala 2.11 中运行良好

4

1 回答 1

1

您需要将spark_xml库版本升级到为 Scala 2.12 编译的版本,因为适用于 DBR 6.4 的版本与新的 Scala 版本不兼容。因此,spark-xml_2.11您需要使用spark-xml_2.12.

PS 我刚刚检查了 DBR 7.3 LTS & com.databricks:spark-xml_2.12:0.11.0- 工作得很好。

于 2021-01-11T08:12:24.330 回答