4

我正在编写一个小程序,它将一个非常大的文件转换为多个较小的文件,每个文件将包含 100 行。

我正在迭代行迭代:

  while (lines.hasNext) {
      val line = lines.next()
  }

我想引入一个计数器,当它达到某个值时,重置计数器并继续。在java中我会做类似的事情:

int counter = 0;
      while (lines.hasNext) {
          val line = lines.next()
if(counter == 100){
 counter = 0;
}
++counter
      }

scala 或替代方法中是否有类似的东西?

4

4 回答 4

9

传统上在你使用的 scala 中.zipWithIndex

scala> List("foo","bar")
res0: List[java.lang.String] = List(foo, bar)

scala> for((x,i) <- res0.zipWithIndex) println(i + " : " +x)
0 : foo
1 : bar

(这也适用于您的行,只要它们在迭代器中,例如 hashasNextnext()方法,或其他一些 scala 集合)

但是如果你需要一个复杂的逻辑,比如重置计数器,你可以像在java中一样编写它:

var counter = 0
while (lines.hasNext) {
  val line = lines.next()
  if(counter % 100 == 0) {
    // now write to another file
  }
}

也许您可以告诉我们为什么要重置计数器,以便我们可以说如何做得更好?

根据您的更新进行编辑,最好使用分组方法,正如@pr1001 建议的那样:

lines.grouped(100).foreach(l => l.foreach(/* write line to file*/))
于 2012-08-21T22:22:54.633 回答
3

如果您的重置计数器表示原始列表中有重复的数据组,您可能需要使用以下grouped方法:

scala> val l = List("one", "two", "three", "four")
l: List[java.lang.String] = List(one, two, three, four)

scala> l.grouped(2).toList
res0: List[List[java.lang.String]] = List(List(one, two), List(three, four))

更新:由于您正在从文件中读取,您应该能够非常有效地遍历文件:

val bigFile = io.Source.fromFile("/tmp/verybigfile")
val groupedLines = bigFile.getLines.grouped(2).zipWithIndex
groupedLines.foreach(group => {
  val (lines, index) = group
  val p = new java.io.PrintWriter("/tmp/" + index)
  lines.foreach(p.println)
  p.close()
})

当然,这也可以写成理解...

在将每组行写入自己的文件之前,您甚至可以通过转换groupedLines为并行集合来获得更好的性能。.par

于 2012-08-21T22:32:17.673 回答
1

这会起作用:

lines grouped 100 flatMap (_.zipWithIndex) foreach {
  case (line, count) => //whatever
}
于 2012-08-22T00:13:25.730 回答
0

您可以zipWithIndex与一些转换一起使用。

scala> List(10, 20, 30, 40, 50).zipWithIndex.map(p => (p._1, p._2 % 3))
res0: List[(Int, Int)] = List((10,0), (20,1), (30,2), (40,0), (50,1))
于 2012-08-21T22:26:56.147 回答