11

我正在通过 RJDBC 从 MySQL 数据库读取文件,它正确显示了 R 中的所有字母(例如,נווה שאנן)。然而,即使使用 write.csv 和 fileEncoding="UTF-8" 导出它,输出看起来像 <U+0436>.<U+043A>. <U+041B><U+043E><U+0437><U+0435><U+043D><U+0435><U+0446>保加利亚语、希伯来语、中文等(在这种情况下,这不是上面的字符串,而是保加利亚语的字符串)。ã,ç 等其他特殊字符也可以正常工作。

我怀疑这是因为 UTF-8 BOM 但我没有在网上找到解决方案

我的操作系统是德语 Windows7。

编辑:我试过

con<-file("file.csv",encoding="UTF-8")
write.csv(x,con,row.names=FALSE)

和(afaik)等价物write.csv(x, file="file.csv",fileEncoding="UTF-8",row.names=FALSE)

4

2 回答 2

11

接受的答案在类似的应用程序中对我没有帮助(Windows 中的 R 3.1,而我试图在 Excel 中打开文件)。无论如何,基于文件文档的这一部分:

如果在编写时需要 BOM(不推荐),则应明确写入,例如 writeChar("\ufeff", con, eos = NULL) 或 writeBin(as.raw(c(0xef, 0xbb, 0xbf)) , binary_con)

我想出了以下解决方法:

write.csv.utf8.BOM <- function(df, filename)
{
    con <- file(filename, "w")
    tryCatch({
    for (i in 1:ncol(df))
        df[,i] = iconv(df[,i], to = "UTF-8") 
    writeChar(iconv("\ufeff", to = "UTF-8"), con, eos = NULL)
    write.csv(df, file = con)
    },finally = {close(con)})
}

请注意,df是 data.frame,filename是 csv 文件的路径。

于 2016-12-31T11:56:57.080 回答
6

Encoding( help("Encoding")) 的帮助页面上,您可以阅读有关特殊编码的信息 - bytes

使用它,我能够通过以下方式生成 csv 文件:

v <- "נווה שאנן"
X <- data.frame(v1=rep(v,3), v2=LETTERS[1:3], v3=0, stringsAsFactors=FALSE)

Encoding(X$v1) <- "bytes"
write.csv(X, "test.csv", row.names=FALSE)

注意 和 之间的factor差异character。以下应该有效:

id_characters <- which(sapply(X,
    function(x) is.character(x) && Encoding(x)=="UTF-8"))
for (i in id_characters) Encoding(X[[i]]) <- "bytes"

id_factors <- which(sapply(X,
    function(x) is.factor(x) && Encoding(levels(x))=="UTF-8"))
for (i in id_factors) Encoding(levels(X[[i]])) <- "bytes"

write.csv(X, "test.csv", row.names=FALSE)
于 2011-09-14T12:12:40.067 回答