file - Scala快速文本文件读取并上传到内存

Question

在 Scala 中，为了读取文本文件并将其上传到数组中，一种常见的方法是

scala.io.Source.fromFile("file.txt").getLines.toArray

特别是对于非常大的文件，是否有一种更快的方法，可能是先将字节块读入内存，然后用换行符分割它们？（有关常用方法，请参阅阅读 Scala 中的整个文件。）

非常感谢。

score 21 · Accepted Answer

性能问题与读取数据的方式无关。它已经被缓冲了。在您实际遍历这些行之前，什么都不会发生：

// measures time taken by enclosed code
def timed[A](block: => A) = {
  val t0 = System.currentTimeMillis
  val result = block
  println("took " + (System.currentTimeMillis - t0) + "ms")
  result
}

val source = timed(scala.io.Source.fromFile("test.txt")) // 200mb, 500 lines
// took 0ms

val lines = timed(source.getLines)
// took 0ms

timed(lines.next) // read first line
// took 1ms

// ... reset source ...

var x = 0
timed(lines.foreach(ln => x += ln.length)) // "use" every line
// took 421ms

// ... reset source ...

timed(lines.toArray)
// took 915ms

考虑到我的硬盘驱动器每秒 500mb 的读取速度，200mb 的最佳时间是 400ms，这意味着除了不将迭代器转换为数组之外，没有任何改进的余地。

根据您的应用程序，您可以考虑直接使用迭代器而不是数组。因为在内存中使用如此庞大的数组肯定会是一个性能问题。

编辑：根据您的评论，我假设您想进一步转换数组（也许正如您所说的那样将行拆分为列，因为您正在读取数字数组）。在这种情况下，我建议在阅读时进行转换。例如：

source.getLines.map(_.split(",").map(_.trim.toInt)).toArray

比

source.getLines.toArray.map(_.split(",").map(_.trim.toInt))

（对我来说，它是 1.9 秒而不是 2.5 秒），因为您不会将整个巨型数组转换为另一个数组，而是将每一行单独转换为一个数组（仅使用一半的堆空间）。此外，由于读取文件是一个瓶颈，因此在读取时进行转换的好处是可以提高 CPU 利用率。

file - Scala快速文本文件读取并上传到内存

1 回答 1

Related

Reference