java - 编码问题（4 字节日文字符）

Question

我正在尝试为日语字符串获取给定位置的字符。我得到

"?" 而不是 Character 专门用于 4 个字节。

下面是我试图执行的代码片段。

 String jp="";

我正在尝试通过打印此字符串中的第一个字符

jp.charAt(0)




ouput="?"

请告知合适的解决方案。

我们已经尝试过UTF-8编码。

score 5 · Accepted Answer

Java 无法将这些字符表示为char，因为它们需要 2 个 UTF-16 单位来表示。charAt这里只给你前半部分，单独没有意义。请参阅http://en.wikipedia.org/wiki/UTF-16。

你可以这样做：

import java.lang.Character;

...

    public static String stringAt( String str, int index )
    {
        int codePoint = Character.codePointAt(str, index);
        return new String( Character.toChars(codePoint));
    }

    public static void main(String args[])
    {
         String jp="";


         System.out.println(stringAt(jp, 0)); //Prints 

    }

...

要遍历字符，您将执行以下操作：

    String jp="";
    int len = jp.length();
    for( int i = 0; i < len; ++i) {
        String character = stringAt(jp, i);

        i += ( character.length() -1 );
        System.out.println( character );
    }
    //
    //
    //
    //

注意：

Java 2 平台在 char 数组以及 String 和 StringBuffer 类中使用 UTF-16 表示。

所以输入也可能是 UTF-8，但它不会改变内部表示和随之而来的问题。只有 UTF-32 是真正的固定宽度编码，其中一个字符可以真正单独代表任何 unicode 字符。

编辑：

子字符串示例（这很乏味，您可能想为此找到一个库）：

public static String substring( String str, int start, int end) {
    int codePointIndex = 0,
        len = str.length();

    StringBuilder sb = new StringBuilder();

    //There's no random access in variable width encoding, so
    //loop must be used
    for( int i = 0; i < len; ++i) {
        String character = stringAt(str, i);
        if( codePointIndex >= start ) {
            sb.append(character);
        }
        if( codePointIndex >= end -1 ) {
            break;
        }
        i += (character.length() - 1);
        codePointIndex++;

    }

    return sb.toString();

}

    String jp = "asdf";
    System.out.println(substring(jp, 0,8)); // asdf
    System.out.println(substring(jp, 0,4)); //as
    System.out.println(substring(jp, 7,8)); //

java - 编码问题（4 字节日文字符）

1 回答 1

Related

Reference