java - 在 Java 中将 Windows-1252 转换为 UTF-16

Question

我正在尝试将所有 Windows 特殊字符转换为它们的 Unicode 等效字符。我们有一个 Flex 应用程序，用户在其中保存一些富文本，然后通过 Java 电子邮件程序将其通过电子邮件发送给他们的收件人。但是，我们不断遇到 Word 的特殊字符，这些字符仅在电子邮件中显示为 ?。

到目前为止我已经尝试过

 private String replaceWordChars(String text_in) {
    String s = text_in;

    // smart single quotes and apostrophe
    s = s.replaceAll("[\\u2018|\\u2019|\\u201A]", "\'");
    // smart double quotes
    s = s.replaceAll("[\\u201C|\\u201D|\\u201E]", "\"");
    // ellipsis
    s = s.replaceAll("\\u2026", "...");
    // dashes
    s = s.replaceAll("[\\u2013|\\u2014]", "-");
    // circumflex
    s = s.replaceAll("\\u02C6", "^");
    // open angle bracket
    s = s.replaceAll("\\u2039", "<");
    // close angle bracket
    s = s.replaceAll("\\u203A", ">");
    // spaces
    s = s.replaceAll("[\\u02DC|\\u00A0]", " ");

    return s;

哪个有效，但我不想将所有 Windows-1252 字符手动编码为等效的 UTF-16（假设这是默认的 Java 字符集）

然而，我们的用户不断从 Microsoft Word 中发现更多 Java 无法处理的字符。于是找了又找，找到了这个例子

private String replaceWordChars(String text_in) {
    String s = text_in;
    try {
        byte[] b = s.getBytes("Cp1252");
        byte[] encoded = new String(b, "Cp1252").getBytes("UTF-16");
        s = new String(encoded, "UTF-16");


    } catch (UnsupportedEncodingException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }

    return s;

但是当我在 Eclipse 调试器中看到编码发生时，什么都没有改变。

必须有一个简单的解决方案来处理微软可爱的 Java 编码。

有什么想法吗？

score 4 · Accepted Answer

您可以尝试使用java.nio.charset.Charset：

final Charset windowsCharset = Charset.forName("windows-1252");
final Charset utfCharset = Charset.forName("UTF-16");
final CharBuffer windowsEncoded = windowsCharset.decode(ByteBuffer.wrap(new byte[] {(byte) 0x91}));
final byte[] utfEncoded = utfCharset.encode(windowsEncoded).array();
System.out.println(new String(utfEncoded, utfCharset.displayName()));

score 2 · Accepted Answer

使用以下步骤：

使用源文件的编码创建一个InputStreamReader(Windows-1252)
OutputStreamWriter使用目标文件的编码 (UTF-16)创建一个
将从阅读器读取的信息复制到作者。您可以使用BufferedReader和BufferedWriter逐行编写内容。

因此，您的代码可能如下所示：

public void reencode(InputStream source, OutputStream dest,
        String sourceEncoding, String destEncoding)
        throws IOException {
    BufferedReader reader = new BufferedReader(new InputStreamReader(source, sourceEncoding));
    BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(dest, destEncoding));
    String in;
    while ((in = reader.readLine()) != null) {
        writer.write(in);
        writer.newLine();
    }
}

当然，这不包括 try/catch 内容并将其委托给调用者。

如果您只是想将内容作为各种字符串获取，则可以将其替换为writer并StringWriter返回其toString值。然后你不需要目标流或编码，只需要一个转储字符的地方：

public String decode(InputStream source, String sourceEncoding)
        throws IOException {
    BufferedReader reader = new BufferedReader(new InputStreamReader(source, sourceEncoding));
    StringWriter writer = new StringWriter();
    String in;
    while ((in = reader.readLine()) != null) {
        writer.write(in);
        writer.write('\n'); // Java newline should be fine, test this just in case
    }
    return writer.toString();
}

score 1 · Accepted Answer

到目前为止，我测试过的所有东西似乎都有效的是：

private String replaceWordChars(String text_in) {
    String s = text_in;
    
    final Charset windowsCharset = Charset.forName("windows-1252");
    final Charset utfCharset     = Charset.forName("UTF-16");
    
    byte[] incomingBytes = s.getBytes();
    final CharBuffer windowsEncoded = 
        windowsCharset.decode(ByteBuffer.wrap(incomingBytes)); 
    
    final byte[] utfEncoded = utfCharset.encode(windowsEncoded).array();
    s = new String(utfEncoded);
    
    return s;
}

java - 在 Java 中将 Windows-1252 转换为 UTF-16

3 回答 3

Related

Reference