我急需。我有一个已转换为通用语言的语料库,但有些单词没有正确转换为英语。因此,我的语料库有非 ASCII 字符,例如U+00F8
.
我正在使用 Quanteda,并且使用以下代码导入了我的文本:
EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")
我的语料库包含 166 个文档。将文档导入 R 后,摆脱这些非 ASCII 字符的最佳方法是什么?