我在 3 个独立的 S3 存储桶中有 3 个独立的数据源(文件)。这 3 个来源中的模式彼此不同,但时间戳是相同的(以纪元为单位的每小时)。
以前,我使用 Glue 从 1 个存储桶中读取数据,并将转换应用于该存储桶中的文件,然后写入生成的存储桶。
使用 3 个数据源,我是否仍然可以从 3 个不同的存储桶中读取它们并以某种方式在纪元时间戳上加入它们,然后吐出统一的数据源(所有 3 个的组合).. 我猜 Glue 将不得不在此执行行级 JOINS案子。
到目前为止,我在网上找到的关于 Glue 的博客文章只讨论了单源输入和转换。
如果这不可能我问的方式?否则你会怎么做?