r - 如何正确输入国际化文本？

Question

我在 CSV 中有一堆来自外国的作者姓名，R 可以很好地读取。我正在尝试清理它们以上传到 Mechanical Turk（它甚至不喜欢单个国际化字符）。这样做，我有一个问题（稍后发布），但我什至不能dput以一种明智的方式：

> dput(df[306,"primauthfirstname"])
"Gwena\xeblle M"
> test <- "Gwena\xeblle M"
<simpleError in nchar(val): invalid multibyte string 1>

换句话说，dput工作得很好，但粘贴结果失败。为什么不dput输出必要的信息以允许复制/粘贴回 R 中（大概它需要做的就是将编码属性添加到结构语句中？）。我如何让它这样做？

请注意，\xeb就 R 而言，这是一个有效字符：

> gsub("\xeb","", turk.df[306,"primauthfirstname"] )
[1] "Gwenalle M"

但是您不能单独评估字符 - 它是十六进制代码 \x## 或什么都没有：

> gsub("\\x","", turk.df[306,"primauthfirstname"] )
[1] "Gwena\xeblle M"

score 1 · Accepted Answer

dput()的帮助页面说：“写一个 R 对象的 ASCII 文本表示”。因此，如果您的对象包含非 ASCII 字符，则这些字符无法表示并且必须以某种方式进行转换。

所以我建议你在ingiconv()之前使用转换你的向量。dput一种方法是：

> test <- "Gwena\xeblle M"
> out <- iconv(test, from="latin1", to="ASCII", sub="byte")
> out
[1] "Gwena<eb>lle M"
> gsub('<eb>', 'ë', out)
[1] "Gwenaëlle M"

如您所见，这两种方式都有效。您可以稍后使用gsub()将字节反向转换为字符（如果您的编码支持它，例如 utf-8）。

第二种方法更简单（我想更适合您的需要），但是单向工作并且您的 libiconv 可能不支持它：

> test <- "Gwena\xeblle M"
> iconv(test, from="latin1", to="ASCII//TRANSLIT")
[1] "Gwenaelle M"

希望这可以帮助！

r - 如何正确输入国际化文本？

1 回答 1

Related

Reference