*免责声明:*这是我第一次在 stackoverflow 上发帖,如果这里不适合提出如此高级别的问题,请原谅。
我刚开始担任数据科学家,有人要求我为“外部”数据设置 AWS 环境。这些数据来自不同的来源,采用不同的格式(尽管主要是 csv/xlsx)。他们希望将其存储在 AWS 上,并能够使用 Tableau 对其进行查询/可视化。
尽管我缺乏 AWS 经验,但我还是设法提出了一个或多或少可行的解决方案。这是我的方法:
- 使用 Lambda 抓取原始 csv/xlsx
- 使用与 1 相同的 Lambda 中的 pandas/numpy 对数据进行清理和转换。
- 处理后的数据以 CSV 格式写入 S3 文件夹(仍在同一个 lambda 中)
- Athena 用于索引数据
- 使用 Athena 创建额外的表(其中一些是视图,其他不是)
- 为 Tableau 设置 Athena 连接器
它可以工作,但感觉像是一个混乱的解决方案:查询很慢而且 lambdas 很大。数据通常没有尽可能地标准化,因为它会更多地增加查询时间。存储为 CSV 似乎也很愚蠢
我试图阅读最佳实践,但这有点不知所措。我有很多问题,但归结为:在这种情况下我应该使用哪些服务?高层架构是什么样的?