在 Unicode 中,带重音的字母可以用两种方式表示:重音字母本身,以及裸字母加重音的组合。例如,é (+U00E9) 和 e´ (+U0065 +U0301) 通常以相同的方式显示。
R 呈现以下内容(版本 3.0.2,Mac OS 10.7.5):
> "\u00e9"
[1] "é"
> "\u0065\u0301"
[1] "é"
但是,当然:
> "\u00e9" == "\u0065\u0301"
[1] FALSE
R 中是否有一个函数可以将两个 unicode 字符字母转换为它们的一个字符形式?特别是,在这里它会崩溃"\u0065\u0301"
成"\u00e9"
.
这对于处理大量字符串非常方便。此外,单字符形式可以很容易地通过iconv
- 至少对于通常的 Latin1 字符 - 转换为其他编码 - 并且由plot
.
提前非常感谢。