在 EMR 5.14 集群上通过 oozie 工作流运行 spark 操作时,我遇到以下错误:
pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org.apache.spark.sql.hive.HiveExternalCatalog'" 我的 Pyspark 脚本在作为普通 spark 作业执行时运行良好,但不是通过 Oozie Pyspark 程序执行:-
spark = SparkSession.builder.appName("PysparkTest").config("hive.support.quoted.identifiers", "none").enableHiveSupport().getOrCreate()
sc = SparkContext.getOrCreate();
sqlContext = HiveContext(sc)
sqlContext.sql("show databases").show()
我创建了一个 workflow.xml 和 job.properties 从LINK引用。
我将所有 spark 和 hive 相关配置文件复制到同一目录下($SPARK_CONF_DIR/)。Hive 还配置为使用 MySQL 作为元存储。
如果您能帮我找出在 Oozie spark 动作中将 Pyspark 程序作为 jar 文件运行时遇到的问题,那就太好了。