我的问题很简单但令人费解。可能是有一个简单的开关可以解决这个问题,但我在 Java 正则表达式方面没有太多经验......
String line = "";
line.replaceAll("(?i)(.)\\1{2,}", "$1");
这崩溃了。如果我卸下(?i)
开关,它就可以工作。这三个 unicode 字符不是随机的,它们是在一个大韩文文本中发现的,但我不知道它们是否有效。
奇怪的是,正则表达式适用于除此之外的所有其他文本。为什么我会收到错误消息?
这是我得到的例外
Exception in thread "main" java.lang.StringIndexOutOfBoundsException: String index out of range: 6
at java.lang.String.charAt(String.java:658)
at java.lang.Character.codePointAt(Character.java:4668)
at java.util.regex.Pattern$CIBackRef.match(Pattern.java:4846)
at java.util.regex.Pattern$Curly.match(Pattern.java:4125)
at java.util.regex.Pattern$GroupTail.match(Pattern.java:4615)
at java.util.regex.Pattern$CharProperty.match(Pattern.java:3694)
at java.util.regex.Pattern$GroupHead.match(Pattern.java:4556)
at java.util.regex.Pattern$Start.match(Pattern.java:3408)
at java.util.regex.Matcher.search(Matcher.java:1199)
at java.util.regex.Matcher.find(Matcher.java:592)
at java.util.regex.Matcher.replaceAll(Matcher.java:902)
at java.lang.String.replaceAll(String.java:2162)
at tokenizer.Test.main(Test.java:51)