2

我正在尝试将一个大json文件(大约 4G)加载为pandas dataframe.,但以下方法不适用于文件 > 大约 2G。有没有替代方法?

data_dir = 'data.json' my_data = pd.read_json(data_dir, lines = True)

我试过ijson但不知道如何将其转换为dataframe.

4

1 回答 1

1

在这种情况下,将大文档加载到内存中可能不是最好的方法。JSON 的这种大小可能需要您使用不同的方法进行解析。尝试改用流式解析器。一些选项

https://pypi.org/project/json-stream-parser/

https://pypi.org/project/ijson/

关键是不要将整个文档加载到内存中。这类似于 XML 世界中的 SAX 解析。

我不是 python 专家,但是,应该有一个很好的库可以为你做这件事。

于 2020-02-19T00:09:49.240 回答