所有,我很新,正在寻求帮助。我需要对压缩后的大约 20 GB 数据的数据集执行字符串搜索。我有一个带有 32 GB RAM 的八核 ubuntu 盒子,我可以用它来处理这个问题,但我无法实现也无法确定此类任务的最佳代码。线程或多处理最适合这样的任务吗?请提供代码示例。谢谢你。请查看我当前的代码;
#!/usr/bin/python
import sys
logs = []
iplist = []
logs = open(sys.argv[1], 'r').readlines()
iplist = open(sys.argv[2], 'r').readlines()
print "+Loaded {0} entries for {1}".format(len(logs), sys.argv[1])
print "+Loaded {0} entries for {1}".format(len(iplist), sys.argv[2])
for a in logs:
for b in iplist:
if a.lower().strip() in b.lower().strip()
print "Match! --> {0}".format(a.lower().strip())