给定大文件 A,我需要遍历该文件的记录和每条记录
- 提取某个字段的值(状态)
- 将此记录添加到名称为“status_”+ 值的文件中
- 将该状态值发送到减速器
所以输出将包含一组带有记录的文件,按状态分组,以及一些带有状态列表的文件
理想情况下,它应该
- 将具有状态的文件放在“output_dir/statuses/status_nnn”下(其中 nnn 是实际状态值),
- 'output_dir/status_list' 将包含每行一个状态
这可能与hadoop有关吗?我发现了如何通过这个示例为每条记录生成文件名,但不确定如何分离记录和枚举状态。
我事先不知道这些记录中可能包含哪些状态。