我有一个问题,我需要在整个文件中从 1 开始生成序列号。
例如,假设我有一个大文件,如下所示:-
abc,123
abb,111
ccc,122
.....N 行数
现在我的输出应该如下: -
1,abc,123
2,abb,111
3,ccc,122
....等等。
使用 mapreduce 执行此操作的问题是文件的每个拆分都由不同的 map 函数并行处理,因此无法维护序列。请不要告诉我使用单个减速器来执行此操作。我不想使用单个 reducer,因为我想使用典型的 mapreduce 作业并行执行此操作。那么有没有最好的方法可以使用 map-reduce 来完成呢?