1

使用 rmr2 执行 MapReduce 时,我遇到了 HDFS 中的 CSV 数据集的问题。

只有 1 个文件,MapReduce 工作正常,没有发现错误,但是当同一文件夹中有 2 个或更多数据集时,数据开始中断,结果开始中断,如下所示:

错误截图

从第 16 行开始,错误开始并一直持续到文件末尾。

使用的 MapReduce 是:

calc = mapreduce(
 input="hdfs://127.0.0.1:8020/user/cloudera/flumeFinal",
  input.format=make.input.format(format="csv", sep = ",",
  col.names=col.names,stringsAsFactors=F),
    map=function(k,lines){
     k <- lines[2]
     return(keyval(k,1))
     },
    reduce= function(k,lines) {
     keyval(k,sum(lines))

有没有人遇到过类似的问题并可以提供帮助?

谢谢,布鲁诺

4

0 回答 0