我每 12 小时在我的亚马逊 EC2 微型实例上运行一次 cron 作业。它下载 118MB 文件并使用 json 库对其进行解析。这当然会使实例内存不足。我的实例有 416MB 的可用内存,但是我运行脚本它下降到 6MB,然后它被操作系统杀死。
我想知道我在这里有什么选择?是否可以通过 Ruby 有效地解析它,或者我是否必须降级到像 C 这样的低级东西?我可以获得功能更强大的亚马逊实例,但我真的想知道是否可以通过 Ruby 做到这一点。
更新: 我看过 yajl。它可以在解析时为您提供 json 对象,但问题是,如果您的 JSON 文件仅包含 1 个根对象,那么它将被迫解析所有文件。我的 JSON 看起来像这样:
--Root
-Obj 1
-Obj 2
-Obj 3
所以如果我这样做:
parser.parse(file) do |hash|
#do something here
end
由于我只有 1 个根对象,它会解析整个 JSON。如果 Obj 1/2/3 是 root,那么它会工作,因为它会一一给我,但我的 JSON 不是那样的,它会解析并占用 500mb 的内存......
更新 #2: 这是 118mb 大文件 (7mb) 的较小版本:
消失了
它是可解析的,我不只是从文件中删除一些字节,只是为了让您将其视为一个整体。我要找的数组是这个
events = json['resultsPage']['results']['event']
谢谢