我有大约 3,500 个由单行字符串组成的文件。这些文件的大小各不相同(从大约 200b 到 1mb)。我正在尝试将每个文件与其他文件进行比较,并在两个文件之间找到一个长度为 20 个字符的公共子序列。请注意,每次比较期间,子序列仅在两个文件之间通用,而不是在所有文件中通用。
我在这个问题上遇到了一些困难,由于我不是专家,所以我最终得到了一些临时解决方案。我使用 itertools.combinations 在 Python 中构建一个列表,最终得到大约 6,239,278 个组合。然后,我一次将两个文件传递给一个 Perl 脚本,该脚本充当一个用 C 编写的名为libstree的后缀树库的包装器。我试图避免这种类型的解决方案,但 Python 中唯一可比较的 C 后缀树包装器存在内存泄漏。
所以这是我的问题。我已经计时了,在我的机器上,该解决方案在 25 秒内处理了大约 500 次比较。这意味着,完成任务需要大约 3 天的连续处理时间。然后我必须再次查看 25 个字符而不是 20 个字符。请注意,我已经超出了我的舒适区并且不是一个非常好的程序员,所以我确信有一个更优雅的方式去做这个。我想我会在这里问它并生成我的代码,看看是否有人对我如何更快地完成这项任务有任何建议。
Python代码:
from itertools import combinations
import glob, subprocess
glist = glob.glob("Data/*.g")
i = 0
for a,b in combinations(glist, 2):
i += 1
p = subprocess.Popen(["perl", "suffix_tree.pl", a, b, "20"], shell=False, stdout=subprocess.PIPE)
p = p.stdout.read()
a = a.split("/")
b = b.split("/")
a = a[1].split(".")
b = b[1].split(".")
print str(i) + ":" + str(a[0]) + " --- " + str(b[0])
if p != "" and len(p) == 20:
with open("tmp.list", "a") as openf:
openf.write(a[0] + " " + b[0] + "\n")
Perl代码:
use strict;
use Tree::Suffix;
open FILE, "<$ARGV[0]";
my $a = do { local $/; <FILE> };
open FILE, "<$ARGV[1]";
my $b = do { local $/; <FILE> };
my @g = ($a,$b);
my $st = Tree::Suffix->new(@g);
my ($c) = $st->lcs($ARGV[2],-1);
print "$c";