java - Java、JavaCC：如何解析 BMP 之外的字符？

Question

看看的定义NameStartChar：

如果我正确解释，最后一个范围 ( #x10000-#xEFFFF) 超出了Java类型的UTF16 范围。char所以它必须是UTF32，对吧？所以，我需要char根据这个范围检查对，而不是单个chars，对吧？

我的问题是：

谢谢！

注意： 别担心，我不是在尝试编写自己的 XML 解析器。
编辑： 我正在编写一个解析器，它将检查来自其他（非 XML）文本格式的文本输入是否与有效的 XML 名称匹配。

score 4 · Accepted Answer

看看Character.toCodePoint(char, char)哪个会将代理对转换为全范围代码点。String.codePointAt也可能对您有用。

Character 和 String 中还有很多其他代理支持。要确切知道要调用哪些方法，我们需要知道您的具体情况。

score 0 · Accepted Answer

例如，u+10000 和 u+10FFFF 是

String first = "\uD800\uDC00"; // u10000
String last = "\uDBFF\uDFFF"; // u10FFFF

2 回答 2