6

在最近的一次工作面试中,我被要求给出以下问题的解决方案:

给定一个字符串s(没有空格)和一个字典,返回字典中组成字符串的单词。

例如,s= peachpie, dic= {peach, pie}, result={peach, pie}

我会问这个问题的决策变化:

如果s可以由字典中的单词组成,则返回yes,否则返回no

我对此的解决方案是回溯(用 Java 编写)

public static boolean words(String s, Set<String> dictionary)
{
    if ("".equals(s))
        return true;

    for (int i=0; i <= s.length(); i++)
    {
        String pre = prefix(s,i); // returns s[0..i-1]
        String suf = suffix(s,i); // returns s[i..s.len]
        if (dictionary.contains(pre) && words(suf, dictionary))
            return true;
    }
    return false;
}

public static void main(String[] args) {
    Set<String> dic = new HashSet<String>();
    dic.add("peach");
    dic.add("pie");
    dic.add("1");

    System.out.println(words("peachpie1", dic)); // true
    System.out.println(words("peachpie2", dic)); // false
}

这个解决方案的时间复杂度是多少?我在 for 循环中递归调用,但只针对字典中的前缀。

有任何想法吗?

4

3 回答 3

5

您可以轻松创建一个程序至少需要指数时间才能完成的案例。让我们只取一个词aaa...aaab,其中a是重复的n次数。字典将只包含两个单词,aaa

b最后确保函数永远不会找到匹配项,因此永远不会过早退出。

每次words执行时,将产生两个递归调用: withsuffix(s, 1)suffix(s, 2). 因此,执行时间像斐波那契数一样增长:t(n) = t(n - 1) + t(n - 2). (您可以通过插入一个计数器来验证它。)因此,复杂性肯定不是多项式的。(这甚至不是最糟糕的输入)

但是您可以使用Memoization轻松改进您的解决方案。请注意,函数的输出words仅取决于一件事:我们从原始字符串中的哪个位置开始。呃,如果我们有一个字符串abcdefg并被调用,那么它的确切组成(作为或其他东西)words(5)并不重要。因此,我们不必每次都重新计算。 在原始版本中,可以这样完成abcdeab+c+dea+b+c+d+ewords("fg")

public static boolean words(String s, Set<String> dictionary) {
    if (processed.contains(s)) {
        // we've already processed string 's' with no luck
        return false;
    }

    // your normal computations
    // ...

    // if no match found, add 's' to the list of checked inputs
    processed.add(s);
    return false;
}

PS 尽管如此,我还是鼓励您更改words(String)words(int). 这样您就可以将结果存储在数组中,甚至可以将整个算法转换为 DP(这将使其更简单)。

编辑 2
由于除了工作我没有太多事情要做,这里是 DP(动态编程)解决方案。和上面的想法一样。

    String s = "peachpie1";
    int n = s.length();
    boolean[] a = new boolean[n + 1];
    // a[i] tells whether s[i..n-1] can be composed from words in the dictionary
    a[n] = true; // always can compose empty string

    for (int start = n - 1; start >= 0; --start) {
        for (String word : dictionary) {
            if (start + word.length() <= n && a[start + word.length()]) {
                // check if 'word' is a prefix of s[start..n-1]
                String test = s.substring(start, start + word.length());
                if (test.equals(word)) {
                    a[start] = true;
                    break;
                }
            }
        }
    }

    System.out.println(a[0]);
于 2010-12-30T14:17:10.923 回答
1

这是一个动态编程解决方案,它计算将字符串分解为单词的方式总数。它解决了您最初的问题,因为如果分解次数为正,则字符串是可分解的。

def count_decompositions(dictionary, word):
    n = len(word)
    results = [1] + [0] * n
    for i in xrange(1, n + 1):
        for j in xrange(i):
            if word[n - i:n - j] in dictionary:
                results[i] += results[j]
    return results[n]

存储 O(n),运行时间 O(n^2)。

于 2010-12-30T15:00:25.820 回答
0

所有字符串上的循环都将采用n. 查找所有后缀和前缀将需要n + (n - 1) + (n - 2) + .... + 1n对于第一次调用words(n - 1)对于第二次等等),即

n^2 - SUM(1..n) = n^2 - (n^2 + n)/2 = n^2 / 2 - n / 2

在复杂性理论中相当于n^2。

在正常情况下检查 HashSet 中是否存在是 Theta(1),但在最坏的情况下是 O(n)。

因此,算法的正常情况复杂度是 Theta(n^2),最坏情况 - O(n^3)。

编辑:我混淆了递归和迭代的顺序,所以这个答案是错误的。实际上时间取决于n指数(例如与斐波那契数的计算相比)。

更有趣的是如何改进算法的问题。传统上,字符串操作使用后缀树。您可以使用字符串构建后缀树,并在算法开始时将所有节点标记为“未跟踪”。然后遍历集合中的字符串,每次使用某个节点时,将其标记为“已跟踪”。如果集合中的所有字符串都在树中找到,则意味着原始字符串包含集合中的所有子字符串。如果所有节点都标记为已跟踪,则意味着该字符串包含集合中的子字符串。

这种方法的实际复杂度取决于许多因素,例如建树算法,但至少它允许将问题分成几个独立的子任务,因此可以通过最昂贵的子任务的复杂度来衡量最终的复杂度。

于 2010-12-30T14:56:31.973 回答