ruby - 解析 100mb 的 JSON 有效负载的有效方法

Question

我每 12 小时在我的亚马逊 EC2 微型实例上运行一次 cron 作业。它下载 118MB 文件并使用 json 库对其进行解析。这当然会使实例内存不足。我的实例有 416MB 的可用内存，但是我运行脚本它下降到 6MB，然后它被操作系统杀死。

我想知道我在这里有什么选择？是否可以通过 Ruby 有效地解析它，或者我是否必须降级到像 C 这样的低级东西？我可以获得功能更强大的亚马逊实例，但我真的想知道是否可以通过 Ruby 做到这一点。

更新： 我看过 yajl。它可以在解析时为您提供 json 对象，但问题是，如果您的 JSON 文件仅包含 1 个根对象，那么它将被迫解析所有文件。我的 JSON 看起来像这样：

--Root
   -Obj 1
   -Obj 2
   -Obj 3

所以如果我这样做：

parser.parse(file) do |hash|
  #do something here
end

由于我只有 1 个根对象，它会解析整个 JSON。如果 Obj 1/2/3 是 root，那么它会工作，因为它会一一给我，但我的 JSON 不是那样的，它会解析并占用 500mb 的内存......

更新 #2： 这是 118mb 大文件 (7mb) 的较小版本：

消失了

它是可解析的，我不只是从文件中删除一些字节，只是为了让您将其视为一个整体。我要找的数组是这个

events = json['resultsPage']['results']['event']

谢谢

score 6 · Accepted Answer

YAJL实现了一个流解析器。您可以使用它即时读取您的 JSON，这样您就可以在内容进入时对其进行操作，然后在完成后丢弃它们（以及从中生成的数据结构）。如果您对此很聪明，这将使您保持在记忆力的限制之下。

编辑：使用您的数据，您真的有兴趣一次提取 JSON 对象的一部分，而不是解析整个对象。这非常棘手，并且确实需要您实现自己的解析器。它的基本要素是您想要：

这不适用于 yajl，因为您在这里处理的是一个对象，而不是多个对象。要使其与 yajl 一起使用，您将需要手动解析 JSON 以发现事件对象边界，然后将每个事件对象块传递给 JSON 解析器以进行反序列化。像 Ragel 这样的东西可以为你简化这个过程。

当然，升级您的 AWS 实例会更容易。

score 0 · Accepted Answer

0

像yaji这样的东西可以将 json 解析为流

于 2012-12-21T16:43:51.037 回答

2 回答 2