string - boyer-moore字符串匹配算法中后缀表的O(n)算法

Question

我想实现 boyer-moore 算法，但我坚持构建一个我认为应该具有 O(n) 复杂度的好的后缀表，我只找到了 O(n^2) 算法。所以你们有我的线索吗？

请不要给我代码片段，如果我愿意，我可以谷歌它，但我更喜欢以我的方式解决它，我只需要一个线索。

score 0 · Accepted Answer

有一种使用前缀函数的快速算法。字符串 s 的前缀函数是一个数组 p，其中 p[i] 是子字符串 s[0..i]（0-indexed）及其后缀的前缀的最长长度。它可以使用使用 2 个事实的 KMP 以 O(n) 复杂度计算：

p[i+1]<=p[i]+1。
对于每个 i，如果 s[p[i]]==s[i+1]，则 p[i+1] = p[i] + 1。否则，我们应该尝试另一个字符串，对于它 s[0. ..j-1]==s[i-j+1...i]。显然，（我们选择最长的字符串）我们应该直接跳转到 i = p[i-1] 的位置。

算法（c++）：

vector<int> prefix (string s) 
{
    int n=s.length();
    vector<int> pi(n);
    pi[0]=0;
    for (int i=1; i<n; ++i) 
    {
        int j = pi[i-1];
        while (j>0 && s[i]!=s[j])
            j=pi[j-1];
        if (s[i]==s[j])  ++j;
        pi[i]=j;
    }
    return pi;
}

现在我们可以构造后缀表：

m = text.length();
vector<int> suffshift(m);
vector<int> pi = prefix(pattern);
vector<int> pi1 = prefix(inverse(pattern));
for (int j=0; j<m; ++j)
{
    suffshift[j] = m - pi[m];
}
for (int i=1; i<m; ++i)
{
     j = m - pi1[i];
     suffshift[j]=min(suffshift[j], i-pi1[i]);
}

Suffshift[m] 代表空后缀，suppshift[0] - 代表整个文本。复杂度为 O(n)。

string - boyer-moore字符串匹配算法中后缀表的O(n)算法

1 回答 1

Related

Reference