Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在我当前的项目中,我正在使用具有快速压缩格式的 Orc 文件,我运行的任何查询都只使用一个映射器运行。我尝试配置 mapred.max.split.size 和 mapred.min.split.size,但是没有显示映射器数量的任何变化。reducer 数量足够好,但由于映射器是单个映射器,运行简单查询的时间就像。
按 x 从 z 组中选择 x,max(y) ;完成映射器需要将近 20 分钟。我还应该做些什么来增加映射器的数量。
请不要告诉它使用分区或存储桶,因为我已经在我的表中使用了它们。
尝试使用 tblproperties orc.stripe.size。
条带大小的默认值为 256 MB,从技术上讲,每个条带有一个映射器。随着单条大小的减小,您可以增加映射器的数量。