amazon-web-services - 雅典娜维护秩序

Question

有没有办法保留来自 Athena 的查询的顺序？假设 s3 存储桶或数据湖中的数据已分区并位于 parquet 文件中。每次我查询一些东西，每次的顺序都不一样。我不确定 Athena 是如何工作的，但是让多个工作人员执行性能查询并将结果组合在一起是有意义的，这将是为什么每次顺序都不同的原因。但是，如果所有数据都来自单个 parquet 文件，是否可以保留结果的顺序？

score 1 · Accepted Answer

如果原始文件中的数据已经按时间排序，则添加 anorder by time_column不会增加查询的复杂性。从概念上讲，每个工作人员将对一小部分数据进行排序，然后对来自工作人员的结果进行合并排序。对于已经排序的数据，这些操作成本很低。

amazon-web-services - 雅典娜维护秩序

1 回答 1

Related

Reference