0

在 Spark 中,当我们读取使用 partitionBy 或 bucketBy 写入的文件时,spark 如何识别它们属于这种类型(partitionBy/bucketBy)并因此读取操作变得高效?有人可以解释一下。提前致谢!

4

1 回答 1

2

两种不同的东西。在这里https://mapr.com/blog/tips-and-best-practices-to-take-advantage-of-spark-2-x/是可怜的小 mapR 的精彩摘录,让我们希望 HP 有所作为。阅读本文将为您提供整个上下文。优秀的阅读顺便说一句。

现实中有两种不同的东西:

  • 当存在分区过滤器时,Catalyst 优化器会从给定查询中下推分区过滤器。扫描仅读取与分区过滤器匹配的目录,从而减少磁盘 I/O。与查询相关的性能改进,秒。

  • 分桶是另一种数据组织技术,它将具有相同桶值的数据分组到固定数量的“桶”中。这可以通过避免“洗牌”来提高广泛转换和连接的性能。</p>

于 2020-01-04T17:21:50.147 回答