我在 RSTUDIO 中导入了一个包含多行和列(字母数字值)的 .csv,其中包含ä
德语“ä”等表达式。
接下来我想做一些文本挖掘,但首先我必须ä
用'ae'替换所有表达式。(或同样ü
使用“ue”)
我查找了诸如 gsub、regmatches 之类的命令……但我不明白 :-( 我只想找到一种方法来搜索所有ü
表达式并将它们替换为“ä”或“ae”…… .
有谁能够帮我 ?谢谢
一个如何使用 gsub 的快速示例,它应该可以帮助您入门。
我们首先创建一个短字符向量。
characters <- c("a small phrase", "a longer phrase", "a", "word")
观察这些 gsub 命令中的每一个如何更改向量。
gsub("a", "", characters)
gsub("a ", "", characters)
gsub("phrase", "something", characters)
第一个参数指定您要查找的内容,第二个参数指定您要替换它的内容,第三个参数说明您将其应用到的对象。
然后我们可以通过将 gsub 的输出分配给它来更改字符对象。
characters <- gsub("phrase", "something", characters)
现在,当我们运行时,characters
我们得到:
[1] "a small something" "a longer something" "a" "word"
此外,除非您真的需要变音字符,否则最好使用拉丁等价字符 (ae),因为并非所有 R 函数都具有出色的 unicode 支持。