python - 如何加速 Python 字符串匹配代码

Question

我有这段代码，它计算随机字符串之间的最长公共子序列，以查看如何准确地重建输入的未知区域。为了获得好的统计数据，我需要对其进行多次迭代，但我当前的 python 实现太慢了。即使使用pypy，它目前也需要 21 秒才能运行一次，理想情况下我希望运行 100 次。

#!/usr/bin/python

import random
import itertools
#test to see how many different unknowns are compatible with a set of LCS answers.
def lcs(x, y):
    n = len(x)
    m = len(y)
#    table is the dynamic programming table
    table = [list(itertools.repeat(0, n+1)) for _ in xrange(m+1)]
    for i in range(n+1):     # i=0,1,...,n
        for j in range(m+1):  # j=0,1,...,m
            if i == 0 or j == 0:
                table[i][j] = 0
            elif x[i-1] == y[j-1]:
                table[i][j] = table[i-1][j-1] + 1
            else:
                table[i][j] = max(table[i-1][j], table[i][j-1])

    # Now, table[n, m] is the length of LCS of x and y.
    return table[n][m]

def lcses(pattern, text):
    return [lcs(pattern, text[i:i+2*l]) for i in xrange(0,l)]

l = 15
#Create the pattern
pattern = [random.choice('01') for i in xrange(2*l)]

#create text start and end and unknown. 
start = [random.choice('01') for i in xrange(l)]
end = [random.choice('01') for i in xrange(l)]
unknown = [random.choice('01') for i in xrange(l)]

lcslist= lcses(pattern, start+unknown+end)

count = 0
for test in itertools.product('01',repeat = l):
    test=list(test)
    testlist = lcses(pattern, start+test+end)
    if (testlist == lcslist):
        count += 1

print count

我尝试将它转换为 numpy，但我一定做得很糟糕，因为它实际上运行得更慢。这段代码能以某种方式加速吗？

更新。在下面的评论之后，如果直接使用循环会更好，它会在相同长度的所有子列表lcses之间给出 LCS 。是否有可能以某种方式修改经典的动态编程 LCS 算法来做到这一点？patterntext

score 1 · Accepted Answer

重复表table在每次调用lcses()时被重新计算 15 次，此时它仅依赖于m且nwherem的最大值为2*l且n最多为3*l。

如果您的程序只计算一次表，那将是当前不是动态编程。一个 Python 习惯用法是

table = None
def use_lcs_table(m, n, l):
    global table
    if table is None:
        table = lcs(2*l, 3*l)
    return table[m][n]

除了使用类实例会比全局表声明更干净、更可扩展。但这让您了解为什么要花这么多时间。

在回复评论时添加：

动态规划是一种优化，需要以更短的时间换取额外的空间。在您的示例中，您似乎正在进行表格预计算，lcs()但是您在每次调用时都构建了整个列表，然后将其丢弃。我并没有声称理解您尝试实现的算法，但是您对其进行编码的方式是：

没有递归关系，因此没有理由进行 DP 优化，或
有一个重复关系，你搞砸了它的实现。

python - 如何加速 Python 字符串匹配代码

1 回答 1

Related

Reference