0

我是构建数据管道的新手,其中在云中转储文件是数据流中的一个或多个步骤。我们的目标是在云中存储来自各种 API 的大量原始数据集,然后只提取我们需要的(这些原始数据的摘要)并将其存储在我们的本地 SQL Server 中以进行报告和分析。我们希望以最简单、最合乎逻辑和最稳健的方式做到这一点。我们选择 AWS 作为我们的云提供商,但由于我们处于起步阶段,因此并未附加到任何特定的架构/服务。因为我不是云和 AWS 方面的专家,所以我想我会发表我的想法,看看我们如何实现我们的目标,看看是否有人对我们有任何建议。我们的数据管道的这种架构有意义吗?我们应该研究任何替代服务或数据流吗?提前致谢。

1) 从多个来源收集数据(使用 API)

2) 将来自 API 的响应转储到 S3 存储桶中

3) 使用 Glue Crawlers 在 S3 存储桶中创建数据的数据目录

4) 使用 Athena 查询 S3 中数据的摘要

5) 将从 Athena 查询获得的数据摘要存储在本地 SQL Server 中

注意:我们将使用 Python 对整个数据管道进行编程(无论我们使用什么 AWS 服务,这似乎都是一个很好的调用,而且很容易,因为从我目前看到的来看,boto3 非常棒)。

4

1 回答 1

1

您可以对#4 和#5 使用粘合作业(pyspark)。您可以使用 Glue 触发器自动执行流程

于 2019-02-06T09:38:26.950 回答