2

我正在研究一些用于生成随机字符串的代码。结果字符串似乎包含无效char组合。具体来说,我发现高代理项后面没有低代理项。

谁能解释为什么会这样?我是否必须明确生成随机低代理来跟随高代理?我以为这不是必需的,因为我使用的intCharacter

这是测试代码,在最近的一次运行中产生了以下错误配对:

配对不良:d928 - d863
配对不良:da02 - 7bb6
配对不良:dbbc - d85c
配对不良:dbc6 - d85c
public static void main(String[] args) {
  Random r = new Random();
  StringBuilder builder = new StringBuilder();

  int count = 500;
  while (count > 0) {
    int codePoint = r.nextInt(Character.MAX_CODE_POINT + 1);

    if (!Character.isDefined(codePoint)
        || Character.getType(codePoint) == Character.PRIVATE_USE) {
      continue;
    }

    builder.appendCodePoint(codePoint);
    count--;
  }

  String result = builder.toString();

  // Test the result
  char lastChar = 0;
  for (int i = 0; i < result.length(); i++) {
    char c = result.charAt(i);
    if (Character.isHighSurrogate(lastChar) && !Character.isLowSurrogate(c)) {
      System.out.println(String.format("Bad pairing: %s - %s",
          Integer.toHexString(lastChar), Integer.toHexString(c)));
    }
    lastChar = c;
  }
}
4

2 回答 2

3

可以随机生成高或低代理。如果这导致低代理项,或高代理项后没有低代理项,则生成的字符串无效。解决方案是简单地排除所有代理:

if (!Character.isDefined(codePoint)
    || (codePoint <= Character.MAX_CHAR && Character.isSurrogate((char)codePoint))
    || Character.getType(codePoint) == Character.PRIVATE_USE) {
  continue;
}

或者,它应该只查看从返回的类型getType

int type = Character.getType(codePoint);
if (type == Character.PRIVATE_USE ||
    type == Character.SURROGATE ||
    type == Character.UNASSIGNED)
    continue;

(从技术上讲,您还可以允许随机生成高代理并添加另一个随机低代理,但这只会创建其他随机代码点 >= 0x10000,而这又可能是未定义的或供私人使用的。)

于 2016-12-13T11:46:59.220 回答
1

您需要排除所有代理孤儿(即高代理孤儿和低代理孤儿)。

仅供参考, UnicodeData.txt的下一个摘录显示了代理的代码点间隔:

D800;<Non Private Use High Surrogate, First>;Cs;0;L;;;;;N;;;;;
DB7F;<Non Private Use High Surrogate, Last>;Cs;0;L;;;;;N;;;;;
DB80;<Private Use High Surrogate, First>;Cs;0;L;;;;;N;;;;;
DBFF;<Private Use High Surrogate, Last>;Cs;0;L;;;;;N;;;;;
DC00;<Low Surrogate, First>;Cs;0;L;;;;;N;;;;;
DFFF;<Low Surrogate, Last>;Cs;0;L;;;;;N;;;;;
于 2016-12-13T11:55:57.650 回答