7

我需要能够处理大型 JSON 文件,在我们在文件中迭代/流式传输时从可反序列化的子字符串中实例化对象。

例如:

假设我只能反序列化为以下实例:

case class Data(val a: Int, val b: Int, val c: Int)

并且预期的 JSON 格式是:

{   "foo": [ {"a": 0, "b": 0, "c": 0 }, {"a": 0, "b": 0, "c": 1 } ], 
    "bar": [ {"a": 1, "b": 0, "c": 0 }, {"a": 1, "b": 0, "c": 1 } ], 
     .... MANY ITEMS .... , 
    "qux": [ {"a": 0, "b": 0, "c": 0 }  }

想做的是:

import com.codahale.jerkson.Json
val dataSeq : Seq[Data] = Json.advanceToValue("foo").stream[Data](fileStream)
// NOTE: this will not compile since I pulled the "advanceToValue" out of thin air.

最后一点,我希望找到一个涉及 Jerkson 或 Play 框架附带的任何其他库的解决方案,但是如果另一个 Scala 库可以更轻松地处理这种情况并获得良好的性能:我不反对尝试另一个库. 如果有一种手动搜索文件然后使用 Json 库从那里继续解析的干净方法:我很好。

不想做的是在没有流式传输或使用迭代器的情况下摄取整个文件,因为一次将整个文件保存在内存中会非常昂贵。

4

2 回答 2

2

我没有用 JSON 完成它(我希望有人会为你想出一个交钥匙解决方案)但是用 XML 完成了它,这是一种处理它的方法。

在流解析器的帮助下,它基本上是一个简单的 Map->Reduce 过程。

地图(你的advanceTo

使用JSON Simple之类的流解析器(未测试)。在回调中匹配“路径”时,通过将其写入流(文件支持或内存中,具体取决于您的数据)来收集下面的任何内容。这将是foo您示例中的数组。如果您的映射器足够复杂,您可能希望在映射步骤中收集多个路径。

减少(你的stream[Data]

由于您在上面收集的流看起来非常小,您可能不需要再次映射/拆分它们,您可以直接在内存中将它们解析为 JSON 对象/数组并对其进行操作(转换、重组等)。

于 2013-01-17T10:19:11.570 回答
1

这是我解决问题的当前方法:

import collection.immutable.PagedSeq
import util.parsing.input.PagedSeqReader
import com.codahale.jerkson.Json
import collection.mutable

private def fileContent = new PagedSeqReader(PagedSeq.fromFile("/home/me/data.json"))
private val clearAndStop = ']'

private def takeUntil(readerInitial: PagedSeqReader, text: String) : Taken = {
  val str = new StringBuilder()
  var readerFinal = readerInitial

  while(!readerFinal.atEnd && !str.endsWith(text)) {
    str += readerFinal.first
    readerFinal = readerFinal.rest
  }

  if (!str.endsWith(text) || str.contains(clearAndStop))
    Taken(readerFinal, None)
  else
    Taken(readerFinal, Some(str.toString))
}

private def takeUntil(readerInitial: PagedSeqReader, chars: Char*) : Taken = {
  var taken = Taken(readerInitial, None)
  chars.foreach(ch => taken = takeUntil(taken.reader, ch.toString))

  taken
}

def getJsonData() : Seq[Data] = {
  var data = mutable.ListBuffer[Data]()
  var taken = takeUntil(fileContent, "\"foo\"")
  taken = takeUntil(taken.reader, ':', '[')

  var doneFirst = false
  while(taken.text != None) {
    if (!doneFirst)
      doneFirst = true
    else
      taken = takeUntil(taken.reader, ',')

    taken = takeUntil(taken.reader, '}')
    if (taken.text != None) {
      print(taken.text.get)
      places += Json.parse[Data](taken.text.get)
    }
  }

  data
}

case class Taken(reader: PagedSeqReader, text: Option[String])
case class Data(val a: Int, val b: Int, val c: Int)

当然,这段代码不能非常干净地处理格式错误的 JSON,并且要用于多个顶级键“foo”、“bar”和“qux”,需要向前看(或从可能的顶级键列表中匹配) ),但总的来说:我相信这可以完成工作。它没有我想要的功能那么强大,也不是超级健壮,但 PagedSeqReader 绝对可以防止它变得过于混乱。

于 2013-01-17T20:52:22.437 回答