有谁知道如何在 EMR 集群上安装com.databricks.spark.xml包。
我成功连接到主emr,但不知道如何在emr集群上安装包。
代码
sc.install_pypi_package("com.databricks.spark.xml")
有谁知道如何在 EMR 集群上安装com.databricks.spark.xml包。
我成功连接到主emr,但不知道如何在emr集群上安装包。
代码
sc.install_pypi_package("com.databricks.spark.xml")
在 EMR 主节点上:
cd /usr/lib/spark/jars
sudo wget https://repo1.maven.org/maven2/com/databricks/spark-xml_2.11/0.9.0/spark-xml_2.11-0.9.0.jar
确保根据您的 Spark 版本和https://github.com/databricks/spark-xml中提供的指南选择正确的 jar 。
然后,启动您的 Jupyter 笔记本,您应该能够运行以下命令:
df = spark.read.format('com.databricks.spark.xml').options(rootTag='objects').options(rowTag='object').load("s3://bucket-name/sample.xml")