2

我正在寻找一些关于最佳/最具成本效益的解决方案的建议,以用于我在 Google Cloud 上的用例(如下所述)。

目前,我正在使用 Cloud Composer,它太贵了。这似乎是作曲家一直在运行的结果,所以我正在寻找一些不是一直在运行或者运行起来更便宜/可以完成同样事情的东西。

用例/流程>>我有一个遵循以下步骤的流程设置:

  1. 有一个使用 Firebase 构建的站点,该站点具有文件拖放/上传 (CSV) 功能,可将数据导入 Google 存储
  2. 该文件删除会触发启动 Cloud Composer DAG 的云功能
  3. DAG 将 CSV 从 Cloud Storage 移动到 BigQuery,同时还使用 Python / SQL 查询对数据集执行大量修改。

关于什么可能是更好的解决方案的任何建议?

看起来 Dataflow 可能是一种选择,但很新,需要第二个意见。

感谢帮助!

4

2 回答 2

0

如果您的文件不是很大,您可以使用 python 和 pandas 数据框处理它,根据我的经验,它适用于大约 1,000,000 行的文件

然后使用 bigquery API,您可以直接上传转换为 bigquery 的数据帧,全部在您的云函数中,记住云函数可以处理数据直到 9 分钟,最好,这种方式是无成本的。

于 2021-02-25T06:15:10.560 回答
0

最近自己也在研究。我很确定 Dataflow 可以用于这种情况,但我怀疑它会更便宜(还考虑到如果你还不是专家,你会花时间学习和迁移到 Dataflow)。

根据您对文件进行的转换的复杂性,您可以查看数据集成解决方案,例如https://fivetran.com/https://www.stitchdata.com/https://hevodata.com/等. 它们主要用于将您的数据从一个地方传输到另一个地方,但它们中的大多数也能够对数据执行一些转换。如果我在 Fivetran 中没记错的话,它是基于 sql 的,而在 Hevo 中,它是 python。

还有这篇文章介绍了放大和缩小 Composer 节点https://medium.com/traveloka-engineering/enabling-autoscaling-in-google-cloud-composer-ac84d3ddd60。也许它会帮助你节省一些成本。老实说,我没有注意到任何显着的成本降低,但也许它对你有用。

于 2021-02-25T09:05:17.700 回答