我正在计划一个项目,我将使用(速率受限的)Reddit API 并将数据存储在 GCS 和 BigQuery 中。最初,Cloud Functions 将是选择,但我必须创建一个 Datastore 实现来管理“伪”请求队列和 cron 作业的 GAE。
在 Dataflow 中做所有事情是没有意义的,因为不建议发出外部请求(即点击 Reddit API)并永久运行单个作业。
我可以使用 Cloud Composer 从 Google 表格中读取字段,然后根据 Google 表格创建一个请求队列,然后让一个任务队列执行这些请求,将它们存储在 GCS 中并加载到 BigQuery 中吗?