在我将这个问题作为我的论文项目时,我在整个数据工程中真的是新手,所以请耐心等待。
我目前正在为已经拥有 CloudSQL 服务的电池存储系统开发一个大数据平台,该服务每 15 秒收集一次数据(因此它已经在 GCP 环境中)。我的工作是复制它们并在每次数据进入时传输到 BIGQUERY(包括使用 Dataprep 准备数据),然后将其用于机器学习。
我已经挖掘了几种方法,其中一种使用 Dataflow,尝试过一次,但它是手动完成的。使用jdbc to bigquery
作业。为了满足我的需求(定期运行作业),我被推荐使用 Cloud Composer。
另一方面,我得到了另一个使用 PubSub 的源,它触发 Dataflow 的作业。后一种方法似乎更有希望,但是,最好同时了解这两个世界。任何建议肯定会有所帮助...