java - 在java中将国际字符串转换为\u代码

Question

如何将国际（例如俄语）字符串转换为\u数字（unicode 数字），
例如\u041e\u041afor OK？

score 62 · Accepted Answer

有一个通过命令行执行的JDK 工具，如下所示：

native2ascii -encoding utf8 src.txt output.txt

例子：

src.txt

بسم الله الرحمن الرحيم

输出.txt

\u0628\u0633\u0645 \u0627\u0644\u0644\u0647 \u0627\u0644\u0631\u062d\u0645\u0646 \u0627\u0644\u0631\u062d\u064a\u0645

如果你想在你的 Java 应用程序中使用它，你可以通过以下方式包装这个命令行：

String pathSrc = "./tmp/src.txt";
String pathOut = "./tmp/output.txt";
String cmdLine = "native2ascii -encoding utf8 " + new File(pathSrc).getAbsolutePath() + " " + new File(pathOut).getAbsolutePath();
Runtime.getRuntime().exec(cmdLine);
System.out.println("THE END");

然后读取新文件的内容。

score 23 · Accepted Answer

23

你可以使用escapeJavaStyleStringfrom org.apache.commons.lang.StringEscapeUtils。

于 2011-06-03T16:59:16.373 回答

score 16 · Accepted Answer

这是ArtB答案的改进版本：

    StringBuilder b = new StringBuilder();

    for (char c : input.toCharArray()) {
        if (c >= 128)
            b.append("\\u").append(String.format("%04X", (int) c));
        else
            b.append(c);
    }

    return b.toString();

此版本转义了所有非 ASCII 字符，并适用于低 Unicode 代码点，如Ä.

score 16 · Accepted Answer

我也有这个问题。我有一些带有一些特殊字符的葡萄牙语文本，但这些字符已经是 unicode 格式（例如：）\u00e3。

所以我想转换S\u00e3o为São.

我使用 apache commons StringEscapeUtils 做到了。正如@sorin-sbarnea 所说。可以在这里下载。

使用方法unescapeJava，像这样：

String text = "S\u00e3o"
text = StringEscapeUtils.unescapeJava(text);
System.out.println("text " + text);

（也有方法escapeJava，但是这个方法将 unicode 字符放在字符串中。）

如果有人知道纯 Java 的解决方案，请告诉我们。

score 12 · Accepted Answer

答案分为三个部分

获取每个字符的 Unicode
确定它是否在西里尔语页面中
转换为十六进制。

charAt()要获取每个字符，您可以使用ortoCharArray()方法遍历字符串。

for( char c : s.toCharArray() )

char 的值是 Unicode 值。

西里尔 Unicode字符是以下范围内的任何字符：

Cyrillic:            U+0400–U+04FF ( 1024 -  1279)
Cyrillic Supplement: U+0500–U+052F ( 1280 -  1327)
Cyrillic Extended-A: U+2DE0–U+2DFF (11744 - 11775)
Cyrillic Extended-B: U+A640–U+A69F (42560 - 42655)

如果在此范围内，则为西里尔文。只需执行 if 检查。如果它在范围内，请使用Integer.toHexString()并添加"\\u". 放在一起它应该看起来像这样：

final int[][] ranges = new int[][]{ 
        {  1024,  1279 }, 
        {  1280,  1327 }, 
        { 11744, 11775 }, 
        { 42560, 42655 },
    };
StringBuilder b = new StringBuilder();

for( char c : s.toCharArray() ){
    int[] insideRange = null;
    for( int[] range : ranges ){
        if( range[0] <= c && c <= range[1] ){
            insideRange = range;
            break;
        }
    }

    if( insideRange != null ){
        b.append( "\\u" ).append( Integer.toHexString(c) );
    }else{
        b.append( c );
    }
}

return b.toString();

编辑：可能应该进行检查c < 128并反转if和else机构；你可能应该转义所有不是 ASCII 的东西。在阅读您的问题时，我可能过于直白了。

score 7 · Accepted Answer

java 附带一个名为native2ascii的命令行工具。这会将 unicode 文件转换为 ASCII 转义文件。我发现这是为本地化生成 .properties 文件的必要步骤。

score 6 · Accepted Answer

如果您需要它来编写.properties文件，您只需将字符串添加到 Properties 对象中，然后将其保存到文件中。它将照顾转换。

score 5 · Accepted Answer

Apache commons返回一个使用符号StringEscapeUtils.escapeEcmaScript(String)转义的 unicode 字符的字符串。\u

"Art of Beer  " -> "Art of Beer \u1F3A8 \u1F37A"

score 3 · Accepted Answer

有一个开源 java 库 MgntUtils 有一个实用程序，可以将字符串转换为 unicode 序列，反之亦然：

result = "Hello World";
result = StringUnicodeEncoderDecoder.encodeStringToUnicodeSequence(result);
System.out.println(result);
result = StringUnicodeEncoderDecoder.decodeUnicodeSequenceToString(result);
System.out.println(result);

这段代码的输出是：

\u0048\u0065\u006c\u006c\u006f\u0020\u0057\u006f\u0072\u006c\u0064
Hello World

该库可以在Maven Central或Github上找到

这是StringUnicodeEncoderDecoder类的 javadoc

score 2 · Accepted Answer

只是一些基本的方法（灵感来自 native2ascii 工具）：

/**
 * Encode a String like äöü to \u00e4\u00f6\u00fc
 * 
 * @param text
 * @return
 */
public String native2ascii(String text) {
    if (text == null)
        return text;
    StringBuilder sb = new StringBuilder();
    for (char ch : text.toCharArray()) {
        sb.append(native2ascii(ch));
    }
    return sb.toString();
}

/**
 * Encode a Character like ä to \u00e4
 * 
 * @param ch
 * @return
 */
public String native2ascii(char ch) {
    if (ch > '\u007f') {
        StringBuilder sb = new StringBuilder();
        // write \udddd
        sb.append("\\u");
        StringBuffer hex = new StringBuffer(Integer.toHexString(ch));
        hex.reverse();
        int length = 4 - hex.length();
        for (int j = 0; j < length; j++) {
            hex.append('0');
        }
        for (int j = 0; j < 4; j++) {
            sb.append(hex.charAt(3 - j));
        }
        return sb.toString();
    } else {
        return Character.toString(ch);
    }
}

score 0 · Accepted Answer

0

此类型名称为 Decode/Unescape Unicode。本站链接在线转换器。

于 2020-06-10T11:20:59.843 回答

score 0 · Accepted Answer

如果从此 JavaScript 代码中，您可能会破解：

/* convert  to \uD83D\uDE4C */
function text_to_unicode(string) {
  'use strict';

  function is_whitespace(c) { return 9 === c || 10 === c || 13 === c || 32 === c;  }
  function left_pad(string) { return Array(4).concat(string).join('0').slice(-1 * Math.max(4, string.length)); }

  string = string.split('').map(function(c){ return "\\u" + left_pad(c.charCodeAt(0).toString(16).toUpperCase()); }).join('');

  return string;
}


/* convert \uD83D\uDE4C to  */
function unicode_to_text(string) {
  var  prefix = "\\\\u"
     , regex  = new RegExp(prefix + "([\da-f]{4})","ig")
     ; 

  string = string.replace(regex, function(match, backtrace1){
    return String.fromCharCode( parseInt(backtrace1, 16) )
  });

  return string;
}

来源：iCompile - 另一种 JavaScript Unicode 编码/解码

java - 在java中将国际字符串转换为\u代码

12 回答 12

Related

Reference