r - 在 R 中使用 Quanteda 时，从文本语料库中删除非 ASCII 字符的最佳方法是什么？

Question

我急需。我有一个已转换为通用语言的语料库，但有些单词没有正确转换为英语。因此，我的语料库有非 ASCII 字符，例如U+00F8.

我正在使用 Quanteda，并且使用以下代码导入了我的文本：

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

我的语料库包含 166 个文档。将文档导入 R 后，摆脱这些非 ASCII 字符的最佳方法是什么？

score 4 · Accepted Answer

尝试：

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

这会将编码转换为 ASCII，将任何不可翻译的字符（不在 0-127 ASCII 范围内的字符）替换为虚无。

1 回答 1