我正在尝试从 HDFS 读取文本或 gz 文件并运行一个简单的 mapreduce 作业(实际上只有 map 作业),但出现错误,看起来 readLines 部分不起作用。我正在寻找是否可以在 mapreduce 中使用 readLines 函数的答案。附言。如果我只使用 readLines 函数在 mapreduce 作业之外解析 HDFS 文件,则没有问题。谢谢。
counts <- function(path){
ct.map <- function(., lines) {
line <- readLines(lines)
word <- unlist(strsplit(line, pattern = " "))
keyval(word, 1)
}
mapreduce(
input = path,
input.format = "text",
map = ct.map
)
}
counts("/user/ychen/100.txt")