r - Knitting Rmd 对非英文字符的处理方式不同

Question

我试图在下面编写可重现的示例。它是 .Rmd 和 .r 的混合体。希望你能明白为什么。

我遇到的问题是非英文字符的处理方式不同，具体取决于代码是直接在控制台中运行还是在针织为 HTML 时运行。

在下面的示例中，我创建了一个带有字符 ü 和 ö 的小型 data.frame，将其写入 csv，然后再次将其读回。

如果写入和读取都发生在块内部或外部，那么一切都很好。

但是如果写入和读取发生在不同的地方，那么就会使用不同的编码（我认为）。和字符混淆。

这意味着在读取数据时，我在编译 .Rmd 文件时需要与直接在 R 中工作时不同的编码。

据我所知，语言环境总是相同的，所以我不明白发生了什么。

有任何想法吗？

直接写入和读取 csv 以创建新的数据文件

df2 <- data.frame(Cäl1 = c(1,2), Col2 = c("ü","a")) 

write.csv(df2, file="df2.csv")

read.csv("df2.csv")

Sys.getlocale(category = "LC_ALL")

现在尝试编织整个文档（只是运行块的行为不同）

```{r read_inside}

read.csv("df2.csv")

Sys.getlocale(category = "LC_ALL")

```

这第二个块将起作用，因为 data.frame 是在块内创建的

```{r write_read_inside}


df2 <- data.frame(Cäl1 = c(1,2), Col2 = c("ü","a")) 
write.csv(df2, file="df2.csv")
read.csv("df2.csv")

Sys.getlocale(category = "LC_ALL")

```

会话信息：

R version 2.15.0 (2012-03-30)
Platform: x86_64-pc-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_United Kingdom.1252  LC_CTYPE=English_United Kingdom.1252    LC_MONETARY=English_United Kingdom.1252
[4] LC_NUMERIC=C                            LC_TIME=English_United Kingdom.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

loaded via a namespace (and not attached):
[1] tools_2.15.0

score 2 · Accepted Answer

所以答案是保证 UTF8 编码，例如write.csv(..., fileEncoding = 'UTF-8'). 根本问题实际上是 RStudio 默认使用 UTF8，但 R 默认使用 OS 的本机编码。我们可以要求 R 在中使用 UTF8 write.csv，也可以要求 RStudio 使用本机编码 ( options(encoding = 'native.enc'))。

r - Knitting Rmd 对非英文字符的处理方式不同

直接写入和读取 csv 以创建新的数据文件

现在尝试编织整个文档（只是运行块的行为不同）

这第二个块将起作用，因为 data.frame 是在块内创建的

1 回答 1

Related

Reference