我试图在我的 jsonl 文件中找到所有包含相同标识符值的 json 对象。
因此,如果我的数据如下所示:
{
"data": {
"value": 42,
"url": "url.com",
"details": {
"timestamp": "07:32:29",
"identifier": "123ABC"
}
},
"message": "string"
}
我想找到具有相同标识符值的每个对象。该文件太大而无法一次全部加载,因此我逐行检查并仅存储标识符值。这样做的缺点是缺少具有该标识符的第一个对象(即,如果对象 A、B 和 C 都具有相同的标识符,我最终只会保存 B 和 C)。为了找到第一次出现的标识符,我尝试第二次通读该文件,以便仅在第一次找到每个重复的标识符时才找到它。这是我遇到一些问题的地方。
这部分按预期工作:
import gzip
import json_lines
import jsonlines
from itertools import groupby
identifiers=set()
duplicates=[]
with json_lines.open('file.jsonlines.gz') as f:
for item in f:
ID = item["data"]["details"]["identifier"]
if ID in identifiers:
duplicates.append(item)
else:
identifiers.add(ID)
dup_IDs={dup["data"]["details"]["identifier"] for dup in duplicates}
但是当我第二次阅读文件时:
with json_lines.open('file.jsonlines.gz') as f:
for item in f:
ID = item["data"]["details"]["identifier"]
if ID in dup_IDs:
duplicates.append(item)
dup_IDs.remove(ID)
else:
continue
if len(dup_IDs)==0:
break
else:
continue
它运行了约 30 分钟,最终使我的计算机崩溃。我假设(希望)这是因为我的代码而不是我的计算机有问题,因为代码更容易修复。