sql-server - 数据管道 - 将 API 响应中的大文件转储到 AWS，然后最终目的地位于本地 SQL Server

Question

我是构建数据管道的新手，其中在云中转储文件是数据流中的一个或多个步骤。我们的目标是在云中存储来自各种 API 的大量原始数据集，然后只提取我们需要的（这些原始数据的摘要）并将其存储在我们的本地 SQL Server 中以进行报告和分析。我们希望以最简单、最合乎逻辑和最稳健的方式做到这一点。我们选择 AWS 作为我们的云提供商，但由于我们处于起步阶段，因此并未附加到任何特定的架构/服务。因为我不是云和 AWS 方面的专家，所以我想我会发表我的想法，看看我们如何实现我们的目标，看看是否有人对我们有任何建议。我们的数据管道的这种架构有意义吗？我们应该研究任何替代服务或数据流吗？提前致谢。

1) 从多个来源收集数据（使用 API）

2) 将来自 API 的响应转储到 S3 存储桶中

3) 使用 Glue Crawlers 在 S3 存储桶中创建数据的数据目录

4) 使用 Athena 查询 S3 中数据的摘要

5) 将从 Athena 查询获得的数据摘要存储在本地 SQL Server 中

注意：我们将使用 Python 对整个数据管道进行编程（无论我们使用什么 AWS 服务，这似乎都是一个很好的调用，而且很容易，因为从我目前看到的来看，boto3 非常棒）。

score 1 · Accepted Answer

您可以对#4 和#5 使用粘合作业（pyspark）。您可以使用 Glue 触发器自动执行流程

sql-server - 数据管道 - 将 API 响应中的大文件转储到 AWS，然后最终目的地位于本地 SQL Server

1 回答 1

Related

Reference