Pig Latin 中的“Partition By”子句有什么用?
另请提供示例用法。
它只允许自定义分区还是允许按列分区?
Pig Latin 中的“Partition By”子句有什么用?
这允许您设置您选择的分区器。Pig 使用默认的,即 HashPartitioner 除了order和skew join。但有时您可能希望拥有自己的实现来提高性能。Partition By有帮助。
另请提供示例用法。
DATA = LOAD '/inputs/demo.txt' using PigStorage(' ') as (no:int, name:chararray);
PARTITIONED = GROUP DATA by name PARTITION BY org.apache.pig.test.utils.SimpleCustomPartitioner parallel 2;
它只允许自定义分区还是允许按列分区?
它只是指定自定义分区器,而不是直接基于某些字段进行分区。
有关详细信息,请参阅PIG-282 。