我正在使用 Google dataproc 提交 Spark 作业并使用 Google Cloud Composer 来安排它们。不幸的是,我面临着困难。
我依靠.conf
文件(类型安全配置文件)将参数传递给我的 spark 作业。
我正在为气流数据处理使用以下 python 代码:
t3 = dataproc_operator.DataProcSparkOperator(
task_id ='execute_spark_job_cluster_test',
dataproc_spark_jars='gs://snapshots/jars/pubsub-assembly-0.1.14-SNAPSHOT.jar',
cluster_name='cluster',
main_class = 'com.organ.ingestion.Main',
project_id='project',
dataproc_spark_properties={'spark.driver.extraJavaOptions':'gs://file-dev/fileConf/development.conf'},
scopes='https://www.googleapis.com/auth/cloud-platform', dag=dag)
但这不起作用,我遇到了一些错误。
谁能帮我解决这个问题?
基本上我希望能够覆盖.conf
文件并将它们作为参数传递给我的DataProcSparkOperator
.
我也尝试过
arguments=`'gs://file-dev/fileConf/development.conf'`:
但这没有考虑.conf
参数中提到的文件。