在典型的猪字数示例中,我很好奇人们如何优化按字分组可能导致包含许多(许多)元素的袋子的条件。
例如:
A = load 'input.txt';
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;
C = group B by word;
D = foreach C generate COUNT(B), group;
在 C 行中,如果有一个单词,比如说“the”,它在输入文件中出现了 10 亿次,这会导致 reducer 在处理时挂起很长时间。可以做些什么来优化这个?