我正在尝试将所有 Windows 特殊字符转换为它们的 Unicode 等效字符。我们有一个 Flex 应用程序,用户在其中保存一些富文本,然后通过 Java 电子邮件程序将其通过电子邮件发送给他们的收件人。但是,我们不断遇到 Word 的特殊字符,这些字符仅在电子邮件中显示为 ?。
到目前为止我已经尝试过
private String replaceWordChars(String text_in) {
String s = text_in;
// smart single quotes and apostrophe
s = s.replaceAll("[\\u2018|\\u2019|\\u201A]", "\'");
// smart double quotes
s = s.replaceAll("[\\u201C|\\u201D|\\u201E]", "\"");
// ellipsis
s = s.replaceAll("\\u2026", "...");
// dashes
s = s.replaceAll("[\\u2013|\\u2014]", "-");
// circumflex
s = s.replaceAll("\\u02C6", "^");
// open angle bracket
s = s.replaceAll("\\u2039", "<");
// close angle bracket
s = s.replaceAll("\\u203A", ">");
// spaces
s = s.replaceAll("[\\u02DC|\\u00A0]", " ");
return s;
哪个有效,但我不想将所有 Windows-1252 字符手动编码为等效的 UTF-16(假设这是默认的 Java 字符集)
然而,我们的用户不断从 Microsoft Word 中发现更多 Java 无法处理的字符。于是找了又找,找到了这个例子
private String replaceWordChars(String text_in) {
String s = text_in;
try {
byte[] b = s.getBytes("Cp1252");
byte[] encoded = new String(b, "Cp1252").getBytes("UTF-16");
s = new String(encoded, "UTF-16");
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return s;
但是当我在 Eclipse 调试器中看到编码发生时,什么都没有改变。
必须有一个简单的解决方案来处理微软可爱的 Java 编码。
有什么想法吗?