python - Python：ijson.parse(in_file) 与 json.load(in_file)

Question

我正在尝试在 python 中读取一个大的 JSON 文件（~ 2GB）。

以下代码适用于小文件，但不适用于大文件，因为第二行出现 MemoryError。

in_file = open(sys.argv[1], 'r')
posts = json.load(in_file)

我看了类似的帖子，几乎每个人都建议使用 ijson，所以我决定试一试。

in_file = open(sys.argv[1], 'r')
posts = list(ijson.parse(in_file))

这处理了读取大文件大小，但 ijson.parse 没有像 json.load 那样返回 JSON 对象，所以我的其余代码不起作用

TypeError：元组索引必须是整数或切片，而不是 str

如果我在使用 json.load 时打印出“posts”，则 o/p 看起来像一个普通的 JSON

[{"Id": "23400089", "PostTypeId": "2", "ParentId": "23113726", "CreationDate": ... etc

如果我在使用 ijson.parse 后打印出“posts”，则 o/p 看起来像一个哈希映射

[["", "start_array", null], ["item", "start_map", null], 
 ["item", "map_key", "Id"], ["item.Id", "string ... etc

我的问题： 我不想更改我的其余代码，所以我想知道是否有办法将 o/p 转换ijson.parse(in_file)回 JSON 对象，以便它与我们使用的完全相同json.load(in_file)？

score 0 · Accepted Answer

也许这对你有用：

in_file = open(sys.argv[1], 'r')
posts = []
data = ijson.items(in_file, 'item')
for post in data:
    posts.append(post)

1 回答 1