问题:给定一组约 250000 个整数用户 ID,以及大约 1 TB 的 JSON 格式的单行记录,将用户 ID 匹配的记录加载到数据库。
只有大约 1% 的记录与 250000 个用户 ID 匹配。我尝试使用字符串匹配来确定用户 ID 是否在原始 JSON 中,而不是 JSON 解码每条记录,这需要很长时间;如果匹配,则解码 JSON 并检查记录然后插入。
问题在于将一个原始 JSON 字符串与包含约 250k 字符串条目的集合进行匹配很慢。
这是到目前为止的代码:
// get the list of integer user IDs
cur.execute('select distinct user_id from users')
// load them as text into a set
users = set([])
for result in cur.fetchall():
users.add(str(result[0]))
// start working on f, the one-json-record-per-line text file
for line in f:
scanned += 1
if any(user in line for user in users):
print "got one!"
// decode json
// check for correct decoded user ID match
// do insert
我正在以正确的方式接近这个吗?匹配这些字符串的更快方法是什么?目前,在查找这么多用户 ID 时,这在 3ghz 机器上每秒管理约 2 个条目(不太好)。当用户 ID 列表非常短时,它管理约 200000 个条目/秒。