我正在尝试解析和筛选一个非常大的 JSON 文件,其中包含 9gb 大小的推文元数据。这就是我使用 ijson 的原因,因为这是社区最推荐的此类文件。它仍然很新,但我装配了这个函数,它应该根据某些条件将值存储到列表中。在遍历不同的 JSON 时,它向我显示以下错误:
parse error: unallowed token at this point in JSON text
sitive": false, "lang": "en"}, {"created_at": "Thu Mar 19 1
(right here) ------^
我不确定我需要改变什么才能让它工作。在使用 Twarc 库对推文进行水合后,我得到了这个文件。我在下面附上了我的示例代码。有没有人遇到过这种情况?
示例代码:
import ijson
with open(march_20_tweets_path, 'rb') as input_file:
jsonobj = ijson.items(input_file, 'item', multiple_values=True)
jsons = (o for o in jsonobj if o['place'] is not None) #error shows here
for tweet in jsons:
#extracting and storing values