我一直无法找到任何直接的答案,所以我想我会在这里问。
可以使用 ETL(例如 AWS Glue)来执行聚合以在任意时间范围内将数据的分辨率降低到 AVG、MIN、MAX 等?
例如 - 给定过去一个月的 2000 多个室外温度数据点,使用 ETL 作业将该分辨率降低到过去一个月的 30 个日平均值数据点。(这些数据的实际用例除外,只是一个例子)。
这个想法是执行聚合以降低数据的分辨率,以使图表、图形等更快地显示大型数据集的长时间范围,因为我们不需要每个单独的数据点,然后我们必须动态聚合这些图表和图形。
到目前为止,我的研究仅表明 ETL 用于数据的 1 对 1 转换,而不是 1000 对 1。似乎 ETL 更多地用于将数据转换为适当的结构以存储在数据库中,而不是用于聚合大型数据集。
我可以使用 ETL 来解决我的聚合需求吗?这将是非常大规模的,使用 AWS 和 Python 实现。