java - 如何将 unicode 代码点转换为它们的字符表示？

Question

如何将表示代码点的字符串转换为适当的字符？

例如，我想要一个获取U+00E4和返回的函数ä。

我知道在字符类中我有一个toChars(int codePoint)接受整数的函数，但没有接受这种类型字符串的函数。

是否有内置函数，或者我是否必须对字符串进行一些转换才能获得可以发送给函数的整数？

score 37 · Accepted Answer

代码点写为十六进制数字，前缀为U+

所以，你可以这样做

int codepoint=Integer.parseInt(yourString.substring(2),16);
char[] ch=Character.toChars(codepoint);

score 8 · Accepted Answer

8

在上调用此构造函数String。

"\u00E4"

new String(new int[] { 0x00E4 }, 0, 1);

于 2013-08-22T12:54:34.360 回答

score 7 · Accepted Answer

从 Kotlin 转换而来：

    public String codepointToString(int cp) {
        StringBuilder sb = new StringBuilder();
        if (Character.isBmpCodePoint(cp)) {
            sb.append((char) cp);
        } else if (Character.isValidCodePoint(cp)) {
            sb.append(Character.highSurrogate(cp));
            sb.append(Character.lowSurrogate(cp));
        } else {
            sb.append('?');
        }
        return sb.toString();
    }

score 7 · Accepted Answer

该问题要求一个函数来转换表示 Unicode 代码点的字符串值（即"+Unnnn"，而不是 Java 格式的"\unnnn"or "0xnnnn）。但是，较新版本的 Java 具有简化处理包含多个 Unicode 格式代码点的字符串的增强功能：

Java 8 中引入 Streams。
在 Java 11public static String toString(int codePoint)中添加到类中的方法。它返回 a而不是 a ，因此返回.CharacterStringchar[]Character.toString(0x00E4)"ä"

这些增强功能允许采用不同的方法来解决 OP 中提出的问题。String此方法在单个语句中将一组 Unicode 格式的代码点转换为可读的：

void processUnicode() {

    // Create a test string containing "Hello World " with code points in Unicode format.
    // Include an invalid code point (+U0wxyz), and a code point outside the Unicode range (+U70FFFF).
    String data = "+U0048+U0065+U006c+U006c+U0wxyz+U006f+U0020+U0057+U70FFFF+U006f+U0072+U006c+U0000064+U20+U1f601";

    String text = Arrays.stream(data.split("\\+U"))
            .filter(s -> ! s.isEmpty()) // First element returned by split() is a zero length string.
            .map(s -> {
                try {
                    return Integer.parseInt(s, 16);
                } catch (NumberFormatException e) { 
                    System.out.println("Ignoring element [" + s + "]: NumberFormatException from parseInt(\"" + s + "\"}");
                }
                return null; // If the code point is not represented as a valid hex String.
            })
            .filter(v -> v != null) // Ignore syntactically invalid code points.
            .filter(i -> Character.isValidCodePoint(i)) // Ignore code points outside of Unicode range.
            .map(i -> Character.toString(i)) // Obtain the string value directly from the code point. (Requires JDK >= 11 )
            .collect(Collectors.joining());

    System.out.println(text); // Prints "Hello World "
}

这是输出：

run:
Ignoring element [0wxyz]: NumberFormatException from parseInt("0wxyz"}
Hello World 
BUILD SUCCESSFUL (total time: 0 seconds)

笔记：

使用这种方法，不再需要特定函数来转换 Unicode 格式的代码点。相反，这是通过处理中的多个中间操作分散的Stream。当然，相同的代码仍可用于处理 Unicode 格式的单个代码点。
很容易添加中间操作，对进行进一步的验证和处理Stream，例如大小写转换、删除表情等。

score 2 · Accepted Answer

此示例不使用 char[]。

// this code is Kotlin, but you can write same thing in Java
val sb = StringBuilder()
val cp :Int // codepoint
when {
    Character.isBmpCodePoint(cp) -> sb.append(cp.toChar())
    Character.isValidCodePoint(cp) -> {
        sb.append(Character.highSurrogate(cp))
        sb.append(Character.lowSurrogate(cp))
    }
    else -> sb.append('?')
}

score 1 · Accepted Answer

从 Java 11 开始，您可以执行以下操作：

jshell> Character.toString(Integer.parseInt("U+00E4".substring(2), 16))
$1 ==> "ä"

score -5 · Accepted Answer

-5

你可以打印它们

s='\u0645\u0635\u0631\u064a'
print(s)

于 2018-03-01T18:22:22.193 回答

score -7 · Accepted Answer

到目前为止，我发现的最简单的方法就是转换代码点；如果您只是希望每个代码点有一个字符，那么这对您来说可能很好。：

int codepoint = ...;
char c = (char)codepoint;

java - 如何将 unicode 代码点转换为它们的字符表示？

8 回答 8

Related

Reference