我正在使用 Python 处理大型文本文件。文件的每一行都是一个完整的 JSON 消息,并且可能很长。我需要将有关每一行的信息插入到数据库中。此信息非常简单:行的长度加上每条消息包含的唯一 ID。所以每一行都有形式
{"field1":"val1", ..., "ID":"12345", ..., "fieldK":"valK"}
我需要从消息中提取“12345”。
现在我加载整个字符串,json.loads()
然后找到 ID 并忽略其余部分。
我的代码太慢了,我需要加快速度。我想看看是否有一种方法可以比加载整个字符串更快地提取“ID”。一种选择是在字符串中搜索“ID”,然后处理:"12345"
. 但是如果碰巧在消息的其他地方有一个子字符串“ID”,它可能会很脆弱。
那么有没有办法以某种方式部分加载行来查找 ID,这与加载整行一样健壮,但也比加载整行更快?