我在 R 中使用tm()
andwordcloud()
进行一些基本的数据挖掘,但我遇到了困难,因为我的数据集中有非英文字符(即使我试图根据背景变量过滤掉其他语言。
假设我的 TXT 文件中的某些行(在 TextWrangler 中保存为 UTF-8)如下所示:
Special
satisfação
Happy
Sad
Potential für
然后我将我的 txt 文件读入 R:
words <- Corpus(DirSource("~/temp", encoding = "UTF-8"),readerControl = list(language = "lat"))
这会产生警告消息:
Warning message:
In readLines(y, encoding = x$Encoding) :
incomplete final line found on '/temp/file.txt'
但由于这是一个警告,而不是错误,我继续向前推进。
words <- tm_map(words, stripWhitespace)
words <- tm_map(words, tolower)
这会产生错误:
Error in FUN(X[[1L]], ...) : invalid input 'satisfa��o' in 'utf8towcs'
我愿意寻找在 TextWrangler 或 R 中过滤掉非英文字符的方法;什么是最方便的。谢谢你的帮助!