google-cloud-platform - GCP 数据流计算图和作业执行

问问题 2021-08-14T01:18:58.887

39 次

0

大家好，当我在 Google Cloud Dataflow 中创建自定义模板时，我努力理解发生了什么，但未能理解。感谢 GCP 文档。以下是我正在实现的目标。

从谷歌云桶中读取数据
预处理它
加载深度学习模型（每个 1 GB）并获得预测
将结果转储到 BigQuery 中。

我成功创建了模板，并且能够执行该作业。但我有以下问题。

当我执行作业时，每次在执行期间下载模型（5 个模型，每个 1GB）或模型被加载并放置在模板（执行图）中，并且在执行期间它使用加载的模型
如果仅在作业执行期间加载模型，那么它不会影响执行时间吗？因为每次触发作业时都必须加载 GB 的模型文件？
多个用户可以同时触发同一个模板吗？由于我想生产它，我不确定这将如何同时处理多个请求？

任何人都可以分享一些关于它的信息吗？

我提到但未能得到答案的来源：https ://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job http://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job /alumni.media.mit.edu/~wad/magiceight/isa/node3.html https://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-execution https://beam.apache.org/documentation/basics/ https://beam.apache.org/documentation/runtime/model/ https://mehmandarov.com/apache-beam-pipeline-graph/

1 回答 1

0

这取决于从哪里加载模型。如果它们被加载到 DoFns 中（很可能），那么它将发生在工作人员中（在作业执行期间）。

至于您的另一个问题，多个用户同时触发模板作业应该没有问题。

于 2021-08-16T18:12:27.100 回答