1

我在 python 3.7 中有一个用 apache-beam 制作的数据流,我在其中处理一个文件,然后我必须删除它。该文件来自谷歌存储桶,问题是当我使用 DataflowRunner 运行器时,我的工作不起作用,因为谷歌数据流 python 3.7 环境中没有安装 google-cloud-storage API。你们知道不使用这个 API 我怎么能在我的数据流中删除这个文件?我见过像https://beam.apache.org/releases/pydoc/2.22.0/apache_beam.io.filesystem.html这样的 apache_beam 模块,但我不知道如何使用它,也没有找到有关如何使用此模块的教程或示例。

4

1 回答 1

2

我认为您在运行数据流作业时无法删除。您必须在数据流作业完成后删除该文件。我通常推荐某种编排方式,例如 apache airflow 或 Google Cloud Composer。

您可以按如下方式在气流中制作 DAG -在此处输入图像描述

这里,

“自定义 DAG 工作流”将具有数据流作业。
“自定义 Python 代码”将有删除文件的 Python 代码

参考 - https://github.com/GoogleCloudPlatform/professional-services/tree/master/examples/cloud-composer-examples/composer_dataflow_examples

于 2020-07-15T20:55:47.063 回答