0

我有一个字符串由客户端在请求有效负载中发送为:

"[0xc3][0xa1][0xc3][0xa9][0xc3][0xad][0xc3][0xb3][0xc3][0xba][0xc3][0x81][0xc3][0x89][0xc3][0x8d][0xc3][0x93][0xc3][0x9a]Departms"

我想得到一个字符串"áéíóúÁÉÍÓÚDepartms"。我怎样才能在 Java 中做到这一点?

问题是我无法控制客户端编码此字符串的方式。似乎客户端只是以这种格式编码非 ascii 字符并按原样发送 ascii 字符(请参阅最后的“Departms”)。

4

1 回答 1

1

方括号内的内容似乎是用 UTF-8 编码的字符,但以一种奇怪的方式转换为十六进制字符串。您可以做的是找到每个看起来像的实例[0xc3]并将其转换为相应的字节,然后从字节中创建一个新字符串。

不幸的是,没有很好的工具来处理字节数组。这是一个快速而肮脏的解决方案,它使用正则表达式来查找这些十六进制代码并将其替换为 latin-1 中的相应字符,然后通过重新解释字节来修复它。

String bracketDecode(String str) {
    Pattern p = Pattern.compile("\\[(0x[0-9a-f]{2})\\]");
    Matcher m = p.matcher(str);
    StringBuilder sb = new StringBuilder();
    while (m.find()) {
        String group = m.group(1);
        Integer decode = Integer.decode(group);
        // assume latin-1 encoding
        m.appendReplacement(sb, Character.toString(decode));
    }
    m.appendTail(sb);
    // oh no, latin1 is not correct! re-interpret bytes in utf-8
    byte[] bytes = sb.toString().getBytes(StandardCharsets.ISO_8859_1);
    return new String(bytes, StandardCharsets.UTF_8);
}
于 2020-04-14T19:47:50.063 回答