我目前正在使用DataProcPySparkOperator
Airflow 和 Cloud Storage 中的脚本启动 PySpark
run_pyspark_job = dataproc_operator.DataProcPySparkOperator(
task_id='run-dataproc-pyspark',
main='gs://my-repo/my-script.py',
project_id=PROJECT_ID,
cluster_name=CLUSTER_NAME,
region='europe-west4'
)
无论如何要从 Cloud Source Repositories 传递脚本吗?对于给定的存储库,可以获取到脚本的绝对链接,但 DAG 似乎不接受它。
https://source.cloud.google.com/my-organisation/my-repo/+/master:my-script.py
有没有办法实现它?