可以通过哪些方式检测字符串中的重复单词?
例如“这是重复测试的测试消息”包含一个重复单词测试。
在这里,目标是检测字符串中出现的所有重复单词。
最好使用正则表达式来实现目标。
可以通过哪些方式检测字符串中的重复单词?
例如“这是重复测试的测试消息”包含一个重复单词测试。
在这里,目标是检测字符串中出现的所有重复单词。
最好使用正则表达式来实现目标。
您可以使用正则表达式做的最好的事情是O(N^2)
搜索复杂性。O(N)
通过将输入拆分为单词并使用 HashSet 检测重复项,您可以轻松实现时间和空间搜索的复杂性。
以下 Java 代码解决了从字符串中检测重复项的问题。如果重复的单词用换行符或标点符号分隔,应该没有任何问题。
String duplicatePattern = "(?i)\\b(\\w+)\\b[\\w\\W]*\\b\\1\\b";
Pattern p = Pattern.compile(duplicatePattern);
String phrase = "this is#$;%@;<>?|\\` p is a is Test\n of duplicate test";
Matcher m = p.matcher(phrase);
String val = null;
while (m.find()) {
val = m.group();
System.out.println("Matching segment is \"" + val + "\"");
System.out.println("Duplicate word: " + m.group(1)+ "\n");
}
代码的输出将是:
Matching segment is "is#$;%@;<>?|\` p is a is"
Duplicate word: is
Matching segment is "Test
of duplicate test"
Duplicate word: Test
这里,m.group(1) 语句表示与第一组模式匹配的字符串 [这里,它是 (\\w+)]。