大家好,当我在 Google Cloud Dataflow 中创建自定义模板时,我努力理解发生了什么,但未能理解。感谢 GCP 文档。以下是我正在实现的目标。
- 从谷歌云桶中读取数据
- 预处理它
- 加载深度学习模型(每个 1 GB)并获得预测
- 将结果转储到 BigQuery 中。
我成功创建了模板,并且能够执行该作业。但我有以下问题。
- 当我执行作业时,每次在执行期间下载模型(5 个模型,每个 1GB)或模型被加载并放置在模板(执行图)中,并且在执行期间它使用加载的模型
- 如果仅在作业执行期间加载模型,那么它不会影响执行时间吗?因为每次触发作业时都必须加载 GB 的模型文件?
- 多个用户可以同时触发同一个模板吗?由于我想生产它,我不确定这将如何同时处理多个请求?
任何人都可以分享一些关于它的信息吗?
我提到但未能得到答案的来源:https ://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job http://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline#pipeline-lifecycle-from-pipeline-code-to-dataflow-job /alumni.media.mit.edu/~wad/magiceight/isa/node3.html https://cloud.google.com/dataflow/docs/guides/setting-pipeline-options#configuring-pipelineoptions-for-local-execution https://beam.apache.org/documentation/basics/ https://beam.apache.org/documentation/runtime/model/ https://mehmandarov.com/apache-beam-pipeline-graph/