通常,Hadoop 示例定义了如何对一个文件或多个文件进行字数统计,字数统计的结果将来自整个集合!
我希望对每个段落进行字数统计并存储在 paragh(i)_wordcnt.txt 等单独的文件中。
怎么做?(问题是 mapper 运行整个集合,reducer 最终收集输出!
如果我达到特定的标记写入结果,我可以做些什么! ) 说如果文件内容:
para1
...
para2
...
para3
...
我可以看到 para2 写 para1 的字数结果吗?或者如果以其他方式将每个段落写入单独的文件中,如何执行此序列
loop:
file(i)(parai)->Mapper->Reducer->multipleOutput(output-file(i))->writetofile(i);
i++;
goto loop;