5

我急需。我有一个已转换为通用语言的语料库,但有些单词没有正确转换为英语。因此,我的语料库有非 ASCII 字符,例如U+00F8.

我正在使用 Quanteda,并且使用以下代码导入了我的文本:

 EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")

我的语料库包含 166 个文档。将文档导入 R 后,摆脱这些非 ASCII 字符的最佳方法是什么?

4

1 回答 1

4

尝试:

texts(EUCorpus) <- iconv(texts(EUCorpus), from = "UTF-8", to = "ASCII", sub = "")

这会将编码转换为 ASCII,将任何不可翻译的字符(不在 0-127 ASCII 范围内的字符)替换为虚无。

于 2016-07-04T12:31:13.607 回答