1

有没有办法保留来自 Athena 的查询的顺序?假设 s3 存储桶或数据湖中的数据已分区并位于 parquet 文件中。每次我查询一些东西,每次的顺序都不一样。我不确定 Athena 是如何工作的,但是让多个工作人员执行性能查询并将结果组合在一起是有意义的,这将是为什么每次顺序都不同的原因。但是,如果所有数据都来自单个 parquet 文件,是否可以保留结果的顺序?

4

1 回答 1

1

如果原始文件中的数据已经按时间排序,则添加 anorder by time_column不会增加查询的复杂性。从概念上讲,每个工作人员将对一小部分数据进行排序,然后对来自工作人员的结果进行合并排序。对于已经排序的数据,这些操作成本很低。

于 2021-05-03T07:32:14.133 回答