1

我想做一个简单的任务,将 iso-8859-1 中的文件编码转换为 UNICODE。根据docs.oracle.com上的 java 规范

对于相应的十六进制值 xxxx,属性键或值中小于 \u0020 的字符和大于 \u007E 的字符写为 \uxxxx。

从网上看,native2ascii 似乎很旧并且有问题,而翻译工具包(和 po2prop)要好得多。

如何对带有“à”之类的字符的 aa 文件进行直接翻译,以便将其翻译为 \00e0 (http://www.fileformat.info/info/unicode/char/00e0/index.htm)?

我已经看了很长时间了,但一直没有找到正确的答案。

4

2 回答 2

1

不确定这是否是您要查找的内容,但您可以在我的crlf实用程序中看到我如何处理各种输入文本流类型(包括 UTF-8 和 ISO 8859-1)和各种输出文本流类型(包括 UTF-16)前段时间写过。该程序具有将控制字符转换为\udddd字符序列的选项。

它位于: http:
//david.tribble.com/src/crlf.cpp
http://david.tribble.com/src/src.html

请注意,它是用 C++ 编写的,而不是 Java。

于 2012-04-26T23:35:57.360 回答
0

作为一种快速而肮脏的技巧,您可以将字符串编码为 JSON 并去掉结尾引号。不太确定像其他常见的 JSON 这样的属性是如何转义的......

于 2012-04-26T22:34:39.970 回答