28

至少在某些情况下,如果亚洲字符包含在 amatrix或 avector中,但不包含在 a 中,则它们是可打印的data.frame。这是一个例子

q<-'天'

q # Works
# [1] "天" 

matrix(q) # Works
#      [,1]
# [1,] "天"

q2<-data.frame(q,stringsAsFactors=FALSE) 
q2 # Does not work
#          q
# 1 <U+5929>

q2[1,] # Works again.
# [1] "天"

显然,我的设备能够显示字符,但是当它位于 a 时data.frame,它不起作用。

进行了一些挖掘,我发现该print.data.frame函数format在每一列上运行。原来,如果format.default直接运行,也会出现同样的问题:

format(q)
# "<U+5929>"

深入format.default研究,我发现它正在调用内部format,用 C 编写。

在我进一步挖掘之前,我想知道其他人是否可以重现这种行为。是否有一些 R 配置可以让我在data.frames 中显示这些字符?

我的sessionInfo(),如果有帮助:

R version 3.0.1 (2013-05-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_Canada.1252  LC_CTYPE=English_Canada.1252   
[3] LC_MONETARY=English_Canada.1252 LC_NUMERIC=C                   
[5] LC_TIME=English_Canada.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

loaded via a namespace (and not attached):
[1] tools_3.0.1
4

2 回答 2

22

我讨厌回答我自己的问题,但尽管评论和答案有所帮助,但它们并不完全正确。在 Windows 中,您似乎无法设置通用的“UTF-8”语言环境。但是,您可以设置特定于国家/地区的语言环境,这将在这种情况下起作用:

Sys.setlocale("LC_CTYPE", locale="Chinese")
q2 # Works fine
#  q
#1 天

但是,它确实让我想知道为什么format似乎使用locale; 我想知道是否有办法让它忽略 Windows 中的语言环境。我还想知道在 Windows 上是否有一些UTF-8我不知道的通用语言环境。

于 2013-07-18T07:31:05.197 回答
6

几天前我刚刚写了一篇关于 Unicode 和 R 的博客。我认为您的 R 编辑器是 UTF-8,这让您错觉 Windows 中的 R 处理 UTF-8 字符。

简短的回答是当你想处理 Unicode(这里是中文)时,不要使用英文 Windows,使用默认为 UTF-8 的中文版 Windows 或 Linux。

我的 Ubuntu 中的会话信息:

> sessionInfo()
R version 2.14.1 (2011-12-22)
Platform: i686-pc-linux-gnu (32-bit)

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C               LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8    
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8    LC_PAPER=C                 LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C             LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C       
于 2013-07-18T06:37:24.680 回答