我正在使用 R 从旧的名声数据库中读取数据。这通常工作得很好,但是在阅读描述时我得到了意想不到的编码。例如:
a <- "\U3e34653c"
# is supposed to be
"ä"
我试图iconv
解决这个问题,但尽管尝试了许多可能性,但我无法以正确的方式显示它。我的语言环境:en_US.UTF-8。有没有办法替换(子)这样的字符串?
尝试使用不同的编码字符串打开文件?正如里卡多建议的那样,也许是拉丁语?如果不是,也许其他一些异国风味:
f <- file( "myfile.db" , encoding = "Latin-1" )
dat <- readLines( f )
你能链接到一些数据吗?
从 SQL Server(通过 ODBC 和 RODBC 包)提取数据时,我遇到了同样的问题。我通过更改 ODBC 驱动程序上的设置以将所有字符串视为 unicode 来解决它。
更具体地说,我正在为 SQL Server 使用 Actual Technologies ODBC 驱动程序,并且在“高级语言设置”下可以指定“将文本类型视为 Unicode”,并将“多字节文本编码”选项设置为 UTF-8。