apache-spark - 在 Spark 中读取使用 PartitionBy 或 BucketBy 写入的文件

问问题 2020-01-04T16:43:25.703

593 次

0

在 Spark 中，当我们读取使用 partitionBy 或 bucketBy 写入的文件时，spark 如何识别它们属于这种类型（partitionBy/bucketBy）并因此读取操作变得高效？有人可以解释一下。提前致谢！

1 回答 1

2

两种不同的东西。在这里https://mapr.com/blog/tips-and-best-practices-to-take-advantage-of-spark-2-x/是可怜的小 mapR 的精彩摘录，让我们希望 HP 有所作为。阅读本文将为您提供整个上下文。优秀的阅读顺便说一句。

现实中有两种不同的东西：

当存在分区过滤器时，Catalyst 优化器会从给定查询中下推分区过滤器。扫描仅读取与分区过滤器匹配的目录，从而减少磁盘 I/O。与查询相关的性能改进，秒。

分桶是另一种数据组织技术，它将具有相同桶值的数据分组到固定数量的“桶”中。这可以通过避免“洗牌”来提高广泛转换和连接的性能。</p>

于 2020-01-04T17:21:50.147 回答