val wordMap = wordMap + (token,currentCount)
这一行正在重新定义一个已经定义的变量。如果你想这样做,你需要定义wordMap
,var
然后使用
wordMap = wordMap + (token,currentCount)
虽然这个怎么样?:
io.Source.fromFile("textfile.txt") // read from the file
.getLines.flatMap{ line => // for each line
line.split("\\s+") // split the line into tokens
.groupBy(identity).mapValues(_.size) // count each token in the line
} // this produces an iterator of token counts
.toStream // make a Stream so we can groupBy
.groupBy(_._1).mapValues(_.map(_._2).sum) // combine all the per-line counts
.toList
请注意,每行预聚合用于尝试减少所需的内存。一次计算整个文件可能太大了。
如果您的文件非常庞大,我建议您使用 Scala 的并行集合或 Hadoop(使用 Scrunch 或 Scoobi 等很酷的 Scala Hadoop 包装器之一)并行执行此操作(因为字数统计对于并行化来说很简单)。
编辑:详细说明:
好的,首先看一下flatMap的内部。我们取一个字符串,并用空格将其拆分:
val line = "a b c b"
val tokens = line.split("\\s+") // Array(a, b, c, a, b)
现在identity is a function that just returns its argument, so if we
groupBy(identity)`,我们将每个不同的单词类型映射到每个单词标记:
val grouped = tokens.groupBy(identity) // Map(c -> Array(c), a -> Array(a), b -> Array(b, b))
最后,我们要计算每种类型的令牌数量:
val counts = grouped.mapValues(_.size) // Map(c -> 1, a -> 1, b -> 2)
由于我们将其映射到文件中的所有行,因此我们最终得到了每一行的标记计数。
那么做flatMap
什么呢?好吧,它在每一行上运行令牌计数函数,然后将所有结果合并到一个大集合中。
假设文件是:
a b c b
b c d d d
e f c
然后我们得到:
val countsByLine =
io.Source.fromFile("textfile.txt") // read from the file
.getLines.flatMap{ line => // for each line
line.split("\\s+") // split the line into tokens
.groupBy(identity).mapValues(_.size) // count each token in the line
} // this produces an iterator of token counts
println(countsByLine.toList) // List((c,1), (a,1), (b,2), (c,1), (d,3), (b,1), (c,1), (e,1), (f,1))
所以现在我们需要将每一行的计数组合成一大组计数。countsByLine
变量是一个,Iterator
所以它没有groupBy
方法。相反,我们可以将其转换为 a Stream
,这基本上是一个惰性列表。我们想要惰性是因为我们不想在开始之前将整个文件读入内存。然后这些groupBy
组将所有相同的单词类型一起计数。
val groupedCounts = countsByLine.toStream.groupBy(_._1)
println(groupedCounts.mapValues(_.toList)) // Map(e -> List((e,1)), f -> List((f,1)), a -> List((a,1)), b -> List((b,2), (b,1)), c -> List((c,1), (c,1), (c,1)), d -> List((d,3)))
最后,我们可以通过从每个元组中获取第二项(计数)来总结每个单词类型的每一行的计数,然后求和:
val totalCounts = groupedCounts.mapValues(_.map(_._2).sum)
println(totalCounts.toList)
List((e,1), (f,1), (a,1), (b,3), (c,3), (d,3))
你有它。