1

我正在尝试通过 DataprocClusterCreateOperator 通过 Apache 气流 Airflow 版本创建 dataproc 集群:1.10.15 Composer 版本:1.16.4 我想将项目使用的临时存储桶分配给集群,而不是谷歌在运行时创建的存储桶。当我们使用 --temp-bucket 选项通过命令行创建集群时,此选项可用,但无法通过 ClusterCreateOperator 传递相同的变量。

Dataproc 运营商信息: https ://airflow.apache.org/docs/apache-airflow/1.10.15/_modules/airflow/contrib/operators/dataproc_operator.html

通过命令创建集群:

gcloud dataproc clusters create cluster-name \
    --properties=core:fs.defaultFS=gs://defaultFS-bucket-name \
    --region=region \
    --bucket=staging-bucket-name \
    **--temp-bucket=project-owned-temp-bucket-name \** 
    other args ...
create_cluster = DataprocClusterCreateOperator(
        task_id="create_cluster",
        project_id="my-project_id",
        cluster_name="my-dataproc-{{ ds_nodash }}",
        num_workers=2,
        storage_bucket="project_bucket",
    region="us-east4",
       ... other params...
    )
4

0 回答 0