我正在尝试将一个大json
文件(大约 4G)加载为pandas dataframe
.,但以下方法不适用于文件 > 大约 2G。有没有替代方法?
data_dir = 'data.json'
my_data = pd.read_json(data_dir, lines = True)
我试过ijson
但不知道如何将其转换为dataframe
.
我正在尝试将一个大json
文件(大约 4G)加载为pandas dataframe
.,但以下方法不适用于文件 > 大约 2G。有没有替代方法?
data_dir = 'data.json'
my_data = pd.read_json(data_dir, lines = True)
我试过ijson
但不知道如何将其转换为dataframe
.
在这种情况下,将大文档加载到内存中可能不是最好的方法。JSON 的这种大小可能需要您使用不同的方法进行解析。尝试改用流式解析器。一些选项
https://pypi.org/project/json-stream-parser/
https://pypi.org/project/ijson/
关键是不要将整个文档加载到内存中。这类似于 XML 世界中的 SAX 解析。
我不是 python 专家,但是,应该有一个很好的库可以为你做这件事。