Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个巨大的 NDJson 格式数据文件 (>400MB),我喜欢将其展平为表格格式以供进一步分析。
我开始手动迭代各种对象,但有些对象相当深,甚至可能会随着时间而改变,所以我希望有一种更通用的方法。
我确信 pandas lib 会提供一些东西,但找不到任何对我有帮助的东西。此外,我发现的其他几个库似乎没有“完全”提供我所希望的(flatten_json)。这一切似乎还很早。
目前是否有可能没有很好的(快速和简单的)解决方案?
任何帮助表示赞赏
pandasread_json有一个 bool 参数lines,将其设置为 True 以读取 ndjsons
read_json
lines
data_frame = pd.read_json('ndjson_file.json', lines=True)