0

我正在计划一个项目,我将使用(速率受限的)Reddit API 并将数据存储在 GCS 和 BigQuery 中。最初,Cloud Functions 将是选择,但我必须创建一个 Datastore 实现来管理“伪”请求队列和 cron 作业的 GAE。

在 Dataflow 中做所有事情是没有意义的,因为不建议发出外部请求(即点击 Reddit API)并永久运行单个作业。

我可以使用 Cloud Composer 从 Google 表格中读取字段,然后根据 Google 表格创建一个请求队列,然后让一个任务队列执行这些请求,将它们存储在 GCS 中并加载到 BigQuery 中吗?

4

1 回答 1

1

听起来像是 Composer 的一个合法用例,此外,您还可以利用 Airflow 中的概念来管理对同一端点的并发调用(例如,Reddit API)。

于 2018-10-23T06:35:57.217 回答