1

我从我无法解析的一个提要提供商处获取以下带有 XML 中的 unicode 字符的字符串。我还尝试获取这些字符的十六进制代码,然后在前面加上 \u ,但这也不起作用。

String str = "</fullText" + ">";
StringBuilder strb = new StringBuilder();
char[] chars = str.toCharArray();
for (int i = 0; i < chars.length; i++) {
  char c = chars[i];
  if ( c >= Character.MIN_HIGH_SURROGATE && c <= Character.MAX_HIGH_SURROGATE ) {
    char ch2 = chars[i+1];
  } else
    strb.append(c);
}
System.out.println(strb.toString());

理想情况下,这应该跳过这些字符,但事实并非如此。我想摆脱字符串中的那些字符。

有没有人遇到过类似的问题?非常感谢这方面的任何帮助。

瓦布哈夫

4

1 回答 1

1

该代码似乎只跳过了高代理代码点。使其也跳过以下低代理项的最简单更改是更改行

        char ch2 = chars[i+1]; 

        i++;

但是,以这种方式编写循环更健壮并使代码更具可读性:

 for (int i = 0; i < chars.length; i++) {
     char c = chars[i];
     Character.UnicodeBlock block = Character.UnicodeBlock.of(c);
     if(block != Character.UnicodeBlock.HIGH_SURROGATES && 
        block != Character.UnicodeBlock.LOW_SURROGATES) {
           strb.append(c);
     }
 }

这还可以处理包含孤立的高或低代理项或以错误顺序的高和低代理项的格式错误的数据(这意味着即使您将有效代理对作为可接受的字符处理,也应跳过或错误处理的数据)。

于 2012-09-14T08:41:47.363 回答