java - Boyer-moore 数词 java

Question

我在 java 中有一个作业，我必须使用 Sedgewick 的 Boyer Moore 子字符串搜索解决方案：http: //algs4.cs.princeton.edu/53substring/BoyerMoore.java.html

现在它将在找到第一次出现的单词时停止并返回找到它的位置。因此，为了计算单词，我将搜索方法更改为：

public String search(String txt) {
        int M = pat.length();
        int N = txt.length();
        int count = 0;
        int skip = 0;
        int charCount = 0;
        for (int i = 0; i <= N - M; i += skip) {
            skip = 0;
            for (int j = M-1; j >= 0; j--) {
                if (pat.charAt(j) != txt.charAt(i+j)) {
                    skip = Math.max(1, j - right[txt.charAt(i+j)]);
                    break;
                }
                charCount++;
            }
            if (skip == 0)
            {
                count++;
                skip++;
            }
        }
        return "Aantal char: " + charCount + "\n" + count;                      
    }

我更改了 if skip 语句以运行计数器“count”并在最后返回它。发生的情况是，如果我手动输入一个模式和一些文本，它似乎算得上是这样：

模式：测试文本：“此测试是测试测试testtest”结果：5

但是，我需要读取一些大约 70k 单词的文本的 txt 文件并进行子字符串搜索：

        BufferedReader input = new BufferedReader(new FileReader(System.getProperty("user.home") + "/Desktop/opdr3tekst.txt"));
        StringBuilder stringBuilder = new StringBuilder();

        while(input.readLine() != null)
        {
            stringBuilder.append(input.readLine());
        }
        input.close();

        BoyerMoore boyer = new BoyerMoore("pattern to search");


        System.out.println(boyer.search(stringBuilder.toString()));

因此，当我搜索一个单词时，我总是得到一个比我在 mac 文本编辑器中 CMD+F 文件本身时少得多的数字。知道出了什么问题吗？

score 1 · Accepted Answer

读取文件时，您正在跳过文件中的行。那是因为这个while(input.readLine() != null)。执行此语句时读取的行永远不会添加到StringBuilder

要解决此问题，您可以执行以下操作：

for(String line;(line = input.readLine())!=null;){
     stringBuilder.append(line);
}

java - Boyer-moore 数词 java

1 回答 1

Related

Reference