python - 加载大型 Json 文件的替代方法

Question

我正在尝试将一个大json文件（大约 4G）加载为pandas dataframe.，但以下方法不适用于文件 > 大约 2G。有没有替代方法？

data_dir = 'data.json' my_data = pd.read_json(data_dir, lines = True)

我试过ijson但不知道如何将其转换为dataframe.

score 1 · Accepted Answer

在这种情况下，将大文档加载到内存中可能不是最好的方法。JSON 的这种大小可能需要您使用不同的方法进行解析。尝试改用流式解析器。一些选项

关键是不要将整个文档加载到内存中。这类似于 XML 世界中的 SAX 解析。

我不是 python 专家，但是，应该有一个很好的库可以为你做这件事。

1 回答 1