有问题的字符串有一个补充 unicode 字符“\ud84c\udfb4”。根据 javadoc,正则表达式匹配应该在代码点级别而不是字符级别进行。但是,下面的拆分代码将低代理 (\udfb4) 视为非单词字符并对其进行拆分。
我错过了什么吗?完成非单词字符拆分的其他替代方法是什么?(Java 版本“1.7.0_07”)
提前致谢。
Pattern non_word_regex = Pattern.compile("[\\W]", Pattern.UNICODE_CHARACTER_CLASS);
String a = "\u529f\u80fd\u0020\u7d76\ud84c\udfb4\u986f\u793a\u5ee3\u544a";
String b ="功能 絶顯示廣告";
System.out.print("original "+a+"\norginal hex ");
for(char c : a.toCharArray()){
System.out.print(Integer.toHexString((int)c));
System.out.print(' ');
}
System.out.println();
String[] tokens = non_word_regex.split(a);
for(int i =0; i< tokens.length; i++){
String token = tokens[i];
System.out.print(i+" ");
for(char c : token.toCharArray()){
System.out.print(Integer.toHexString((int)c));
System.out.print(' ');
}
System.out.println();
}
输出:
original 功能绝显广告<br> original hex 529f 80fd 20 7d76 d84c dfb4 986f 793a 5ee3 544a
0 529f 80fd
1 7d76 d84c
2 986f 793a 5ee3 544a